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假定之下,证明十分 简单. 在中心极限定理的证明中，我们假定了莱维连续性5 
成立.在本章中，我们还介绍了若千概率不等式,如马尔可夫不等式、切比雪5 
等式和切尔诺夫界.在最后一节,我们给出用随机变量的相应概率去近似独立< 


























































第 1 章组合分析 

1.1 引言 


首先,我们提出一个与概率论有关的有趣的经典问题：一个通信系统含 n 个天 

线，顺序地排成一排，只要没有两个连续的天线都失效，那么这个系统就可以接收 

到信号,此时称这个通信系统是有效的.已经探明这《个天线里,恰好有 m 个天线 

是失效的，问此通信系统仍然有效的概率是多大？举例来说,设 n = 4，m = 2,通信 
系统是否有效取决于这 n 个天线的设置方式（它们的排列次序).这4个天线一共 
有6种可能的设置方式 

0 1 1 0 0 1 0 1 1 0 1 0 0 0 1 1 1 0 0 1 1100 
其中，1表示天线有效, 0表示天线失效.可以看出前3种情况下整个通信系统仍 
然有效，而后3种情况下系统将失效,因此,若天线的设置方式是随机排列的，所求 
的概率应该是 5 = 1. 对于一般的 n 和 m 来说，用类似上述方法可以计算出所求 
概率.即先计算使得系统仍有效的设置方式有多少种，再计算总共有多少种设置方 
式,两者相除即为所求概率. 

从上所述可看出，一个有效地计算事件发生结果数目的方法是非常有用的.事 
实上，概率论里的很多问题只要通过计算一个事件发生结果的数目就能得以解决. 
关于计数的数学理论通常称为妞合分析 (combinatorial analysis). 


1.2 计数基本法则 

对我们的整个讨论来说，以下关于计数的法则是基本的.粗浅地说,若一个试 
验有 m 个可能结果,另一个试验有 n 个可能结果，则两个试验一共有 mn 个结果. 


计数基本法 i 

有两个试验,其中试验1有 m 种可能发生的结果，对应于试驗1的每 
—个结果，试验2有 n 种可能发生的结果，则对这两个试验来说，一共有 
mn 种可能结果. _ 


基本法則的证明通过列举两个试验所有可能的结果来证明这个问题，结果 























共有 6 名男生、4名女生，对班上的学生进行一次测验，并 
!设没有两个学生成绩一样. 

5名次的方式？ 

生分开排名次,一共有多少种排名次的方式？ 

J 对应着一个10人的样列方式，故答 案是： 10! =3 628 800. 
【有6!种可能,女生一起排名次有4!种,根据计数基本法 


一共有6!种排列 方式. 然而，考察其中任一个排列，比如 PiP 2 EiP 3 E 2 R, 如果分别 
将3个字母 P 和2个字母 E 的次序重排，那么得到的结果仍然是 PPEPER 也就 
是说，总共有3!2!种排列 

P1P2E1P3E2R PiPaEaPaEiR PiPsEiPaEaR P1P3E2P2E1R 
P2P1E1P3E2R PaPiEaPaEiR P2P3E1P1E2R PaPaEaPiExR 
P3PiEiP 2 EaR PaPiEaPaEiR PaPaE^EaR PgPaEaPiEjR 













4 第 1 章 fc 今分析 _ 

这些排列都具有 形式： PPEPER. 因此一共有6!/(3!2! ) = 60 种不同的排列方式 • ■ 
一般来说，利用上述同样的推论方法 可知： n 个元素，如果其中 m 个元素 
彼此不可区分，另 na 个彼此不可区分， •••, ^个也彼此不可区分，那么一共有 
种排列方式 • 

例 3e —个棋类比赛一共有10个选手，其中4个来自俄罗斯，3个来自美国， 
2个来自英国，另1个来自巴西.如果比赛结果只记录选手的国籍，那么一共有多 
少种可能结果？ 

解： —共有 ij^TTT = 12 600 种可能结果. ■ 

例 3f 有9面小旗排列在一条直线上，其中4面白色、3面红色和2面蓝色， 
颜色相同的旗是一样的.如果不同的排列方式代表不同的侑号,那么一共有多少种 
可能的信号？ 

解： 一共有 iiHjf = 1260 种不同的信号. ■ 

1.4 组合 

从 n 个元索当中取 r 个,一共有多少种取法？这也是一个有趣的问题.比如， 
从 A, B, C, D 和 E 这5个元素中选取3个组成一组,一共有多少种取法？解答如 
下：取第一个有5种取法，取第2个有4种取法,取第三个有3种取法,所以,如果 
考虑选择顺序的话,那么一共有 5x4x3 种取法.但是,毎一个包含3个元素的组 







因此 , 就表示了从 n 个元素中一次取 r 个元素的可能取法的数目，如果不 
考虑抽取顺序的话. 

例 4a 从20人当中选择3人组成委员会,一共有多少种选法？ 

解:補选法 ■ 


例 4b 有个12人组成的团体，其中5位女士, 7位男士,现从中选取2位女 
士, 3位男士组成一个委员会,问有多少种取法？另外，如果其中有2位男士之间有 
矛盾,并且坚决拒绝一 fe 工作,那又有多少种取法？ 



种方式选取祕嫌. 


现在来看如果有两位男士拒绝一起工作，那么选取3位男士的 g) = 35种方 
法中，有 ( D ( l ) =5 种同时包含了该两位男士，所以，一共有 35 - 5 = 30 种选取 
方法不同时包含那两位有矛盾的 男士； 另外,选取女士的方法仍是= 10种，所 
以，—共有 30x 10 = 300种选取方式. ■ 

例 4c 假设一排 n 个天线中，有 m 个是失效的，另 n - m 个是有效的，并且 
假设所有有效的天线之间不可区分，同样,所有失效的天线之间也不可区分.问有 
多少种排列方式，使得没有两个连续的天线是失效的？ 

解： 先将 n - m 个有效天线排成一排,既然没有连续两个失效的,那么两个有 
效天线之间，必然至多放置一个失 效的. 也即，在 n-m + 1 个可能位置中（如图 1.1 
中的星号)，选择 m 个来放置失效天线.因此有 ( n ~^ + 1 ) 种可能方式确保在两 
个失效天线之间至少存在一个有效天线 .® ■ 

以下是一个非常有用的组合恒 等式： 

CHK 1 ) （ 41 ) 

上述恒等式可用分析的方法证明,也可从组合的角度来证明.设想从 n 个元素中取 
»•个,一共有种取法.从另一个角度来考虑，不妨 设这找 个元素里有—个特殊 
的，记为元素1，那么取 r 个元素就有两种结果,取元素1或者不取元素 1. 取元素 


①若 m>»-m + l, 按组合记号的约定 ，: 




1 的方法一共有 (^~J) 个元素里面取 r — 1个不取元素1的方法 

一共有；： ^种（从去掉元素1的剩下 n - 1个元素中取 r 个).两者之和就是从 
n 个元素里取 r 个的方法之和，所以恒等式成立 • 

為卜卜 I ... ^卜卜 

1：有效天我 
A :放最多_个失效天线 

图 1.1 天线的排列 


值经常也称为二項式系数 (binomial coefficient), 这是因为它们是以下的 
二项式定理中重要的系数. 


(*+v) n 






(4.2) 


以下提供二项式定理的两个证明方法,其一是数学归纳法，其二是基于组合考 
虑的证明. 

二项式定理的归纳法证明《 = 1时，（4.2> 式化为 a:+y = Q^+Q)* 1 !/ 0 = 
y + x. 现假设 (4.2) 式对于 n - 1成立,那么对于 n， 

(x+y) n = (*+»)(*+») n_1 -(*+y)E ( n ； 

=E i + E ( n ; V » n -'' 

在前面的求和公式里令 i = k + l, 后面的求和公式里令 i = fc, 那么 


(… )" = 10"_‘+g ("T 1 )^-* 

-，+|[(n 1 )+(v) 卜〜 

=*■■+£ o"-* + »"=§ (?y 

这样就证明了等式. ■ 

二项式定理的组合法证明考虑乘积 On + yi)(x 2 +V2)---(x n + y n ) 展开后一 
共包含 2" 项，每一项都是 n 个因子的乘积，而且每一项都包含因子叫或讲， 例如： 




(*1 + Vl)(x3 + Itt) = X1X2 + Xi»2 + VlX2 + y\V2 

这 2" 项和里面，一共有多少项含有 fc 个為和 n - A 个1«? 

含有 *： 个叫和 《 - fc 个 y* 的每一项对应了从 n 个元素 x^xj, …， :c„ 里取 fc 
个元素的 取法. 因此一共有个这样的项.这样，令:^ = z,ifc = y，i = I，... ，n， 
可以看出 n 

(* + l/) n = ^(j)**y"- fc ■ 

例 4d 展开 （a: + v) 3 . 

解： （》+» 卜® 1 V + ©»V + gp» + ©*V 

= j/ 3 + 3X1^ + 3® 2 y + ® 3 ■ 

例 4e —个有 《 个元素的集合共有多少子集？ 

解： 含有 A 个元素的子集一共有个，因此所求答案为 

E© = (i+iy. 

该结果还可以这样 得到： 给该集合里的每个元素都标上1或0,每种标法都一 
一对应了一个子集，例如，当把所有元素都标为1时候,就对应着一个含有所有元 
索的子集.因为一共有 2" 种标法,所以一共有 2" 个子集. 

上述结论包含了一个元素都没有的子集（也即空集)，所以至少有一个元素的 
子集一共有 2" - 1个. _ 


1.5 多项式系数 


本节考虑如下问 题：有 《个不同的元素，分成》■组,每组分别有 
个元素，其中= «，一共有多少种分法？注意到，第一组成员有种选 
取方法，接下来,选定第一组成员后，选第二组成员时只能从剩下的 n-m 个元索 
中选，一共有("- ni ) 种取法，接下来第三组有 ( n_ ^ 3 _n2 ) 种取法，等等.因 
此,根据推广的计数基本法则，将 n 个元素分成 r 组的分法总数一共是 


1 nl" 2 _ (n-m)!^ (i 

"(n — nx]j!ni! (n-ni — n 2 )!»*2! 

~ ni! na! • • • nr! 






























样,淘汰赛的结果可用排列 (iL '.im) 来表示，其中 S 代表第 ） 名参赛者的编号. 
由于不同的洵汰赛的结果给出不同的排列，而对于每一个排列，都有一•个淘汰赛的 
结果与之 对应. 这样,可能的淘汰赛的结果数目与 I, ..，n 的排列数相同，即 n!. ■ 

例 5e 

(* 1 + * 2 + * 3 ) 2 = ( 2 ,5,0)赫§ + (0 j ， o ) 秘 S + (0,5,2)*獅 
+(。，少幽 . G 1>脉 Uli ) 獅 

= x? + X2 + a! 3 + 2*1®2 + 2 iix 3 + 2xa®3 ■ 

•1.6 方程的整数解个数 a 

把 n 个可分辨的球分到 f 个可分辨的坛子里，一共有 r" 种 方式. 这是因为 
任一个球都有可能放到 r 个坛子中的任 一个. 现在假设这 n 个球是不可分辨的， 

①此处或以后打 * 号表示这些材料是可以选读的，或是选作的题 目- 




















例 6d 再来讨论例 4c， 有 n 个天线， 
rx 个也是不可分辨但却有效的.现在要 
可能排列数.设想 m 个失效的天线样 
位置.如果是排成了如下 方式： 


其中 m 个是不可分辨的失效天线，另 
求求出排成一排且没有连续两个失效天 
成一排,现找出放 n-m 个有效天线的 


i 数；> 0, i = 2,…， m, 是放在第 i 个失效 
匕间的有效天线的 个数; x m+1 >0 是放在最右边的有效 
t 两个失效天线之间都至少有一个有效天线，因此，满 


*1 + • • • + ®m+i =n-m Xi >0, Xm-fi > 0, *< > 0, i = 2, ... ,m 
令 yi = *1 + 1， W = ®i，i = 2 , …，饥， Vm+l = *m+i + 1, 可以看出它等同于以下方 
程的正整数向量解 个数： 

Vi+yi+ ■■ + Vm+l =n-m + 2 

由命题 6.1 知，一共有 ( n_ ^ +1 ) 种这样的配置方式，这与例 4c 的结果一致 • 
现在来考虑每两个失效天线之间至少有两个有效天线这种情况的排列数•根 





因此，由命题6.1，可知一共有(»-^ + 2 )种配置方式. 


小 结 

计数基本法则阐述了如下 事实： 如果一个试»分成两个阶段，第一个阶段有打 
种可能结果，每种结果又对应于第二个阶段的 m 种可能结果，那么该试验一共有 
rnn 种可能结果 • 

n 个元素的排列一共有 n ! = n(n _ 1)...3 • 2 ■ 1种可能排列 方式. 特别地， 
01 =1. 

(<) = { n - i )\ i \ 

其中0 < i < n , 否则等于 0. 此式表明了从 n 个元索中选取 < 个元素的可能选取方 
法数，称为从 n 个对象中选取 i 个对象的组合数,因其在二项式定理中的突出 
地位,它也常称为二項式系教,我们有 n 

对于任意和为 n 的非负整数 n ^ - ^ rir , 

( ni . na ,--' ,0 — ni ! t » a ! ••• n P ! 

它等于 n 个元素分成互不重叠的 r 部分，其中各个部分的元素个数分别是 
n 2) •■- , n r 的分 法数. 



二位是 0 或者1;第 三位: 
头的区号一共有多少种司 
6. 有个熟知的 童谣： 

我出发 去圣- 艾弗斯， 























资方法,如果 

(a) 毎个项目都要 投资； （b) 至少投资其中3个項目. 


理论习題 

2. 有个可能的结果.若第一个试验得到第 i 个结果，则第二个 
试被有叫个可能的结果, i = 1,2,". ，m. 问这两个试驗_共有多少种可能结果？ 

3. 从 n 个元素里取 r 个,如考虑抽取次序的话有多少种取法？ 

4. 有 n 个球，其中 r 个黑球， r* - r 个白球,把它们排成一排，用组合学知识解释共有 Q 
种排法. 

5. 计算形如 (xi,s a ,---,x n ) 的向置的个败，其中為等于0或者1,且 

6. 有多少个这样的向量 (!,,••• ，办)，其中是正整败，且满足1 < x 4 < r» 和： n <吻< 

7. 用分析的方法证明等式 (4.1). 

8 . 证明 ( "m) + d) + ... + (x) 

提示 ：设有 n 个男人和 m 个女人,从中挑选 r 人，一共有多少种挑选方法？ 

9. 利用理论习« 8的结论 证明： (^)= H ( I ) 2 











11. 以下是费马组 合恒等式: 



































第 2 章概率论公理化 


2.1 简介 








例 （4) 中，亊件 £ = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} 表示两个骰子点数之和 
为7,而 F = {(1,5), (2,4), (3,3), (4,2), (5,1)} 表示殺子点数之和为6,那么不 
包含任何试验结果,所以它也不可能发生.类似这样的事件，称为不可能事件，记为 
0( 也即，0是不包含任何结果的事件).如果= 0,则称 E 和 F 是互不相容的 
(mutually exclusive). 

用类似的方式再来定义两个以上事件的并和交. 设玢，均 ，…是一系列事件， 
这些事件的并记为 U ~= i ® n , 表示至少包含在某 一个& 里的所有结果所构成的事 
件.同样，这些事件的交记为 rr =1 私,其含义为包含在所有里的所有结果构成 

最后，一个亊件的补事件记为 P ， 其含义是包含在样本空间里但不包含在五 
里的所有结果构成的 事件. 也即，妒发生当且仅当五不发生.在例⑷中，如 




















下面关于并、交及对立亊件这三个基本运算之间的重要的关系式称为德摩根 
定律 （DeMorgan’s lawB): 

(u^V=n^ ㈣ c =i> 

\i=l / i=l \ i=l / <=1 

为了证明上述定律，首先假设 x 是 ( u ^ 玖 y 里的—个元素，那么 x 不包含 
于 UU 段，这就意味着: T 并不包含于任—个亊 件氏, i = ,n, 所以对任意 

i(t = I, 2 ,…， 《) 来说， z 就包含于耵，也即3：包含于 m 埒- 另-方面，假设怎 
包含于 HIU 校,那么对任一 *,* = 1,2, •••,»»,* 包含于段. $ 就意味着 I 不属于 
所有的玖 ，即： c 不包含于 屄也即 $ 包含于这样就证明了德摩 
根定律的第一条 • 

现证明德摩根定律的第二条，由第一条定律可知 

( u ^) c = n^) c 

这样，由（五=艮上式等价于 

对两边取补运算，即得到如下 结果： 


2.3 概率论公理 


—种定义事件发生的概率的方式是利用事件发生的 频率. 定义 如下： —个试验 
的样本空间为 S, 在相同的条件下可重复 进行. 对于样本空间 S 里的亊件五，记 
n(B) 为 n 次重复试验中亊件 E 发生的 次数. 那么，该事件发生的概率 
P ( E ) = ^ a o ^^- 

即概率 P (均 定义为五发生的次数占试"验^数的比例的极限，也即发生频率的 


虽然上述定义很直观，而且大多读者也一直这么认为，但它却有很严重的缺陷. 
怎么就知道 n { E )/ n 会收敛到一个固定的常数，而且如果进行另一次重复试验，它 
也会收敛到这个相同的常数？例如，设想进行这样的 试验： 重复掷一枚硬币 n 次， 
怎么能保证在 n 次微中正面朝上的比例会随着《的增大而收敛于某个数？而且， 
即使它确实收敛于某个数，又如何保证进行另一次同样的重复试验时，其比例会趋 



因为，尽管亊实上需要假定频率的极限是存在的，但是这却不是一个最基本、最简 
单的假设.同时，这样的假设也不一定为所有人所认同.亊实上，先假定一些更简 
单、更显而易见的关于概率的公理，然后去证明频率在某种#义下趋于一个常数极 
限不是更合情合理吗？这也正是本书采纳的现代概率论公理化方法.特别地,仍假 
定对于样本空间里的任一 亊件尽 都存在一个值 />(£；)( 指的就是亊件五的概率)， 
并假定这些概率值符合一系列公理.读者一定会认可这些公理,因为这些公理很接 
近于对概率的直觉认识. 

假设某个试验的样本空间为对应于其中任一 亊件尽 定义一个败 P ( E )， 满 
足如下3条公理. 

公理 1 0 </»(£；) <1 

公理2 P(5) = 1 

公理3对任一系列互不相容的事件玢 ，氏 ，…(即如果的 

有 广、的 

P ( U ^)= E P ^) 

我们把满足以上3条公理的 P ( E ) 称为事件的概率. 

公理1说明，任何亊件 B 的概率在0到1之间•公理 2 说明， S 作为必然发 
生的亊件，其概率定义为1.公理3说明对任意一列互不相容事件,至少有一亊件 
发生的概率等于各事件发生的概率 之和. 这些公理简明又直观 • 

设 E u Eh , - 为一特殊的亊件序列，其中五 i = S , E t = 0,i > 1,此时各个亊 
件互不相容，且 S = 玖.由公理3可以 得到： P(S) = EZi P ^ i ) = P { S ) + 
这就说明 P(0) = 0, 也即空事件发生的概率为 0. 

值得注意的是,对于有限个互不相容亊件的序列 玢，均，…，‘ 有 

P (0,)=E P (^) (31) 

为证明这个结论,只需在公理3中，令所有玖 (i > n) 为空事件 即可. 当样本空 
间为有限集时，公理3与上式是等价的，但当样本空间是无限集时，公理3的关于 
事件概率可加性的推广就是必要的 • 

例 3 a 掷一枚硬币，记正面朝上的事件为 H ， 反面朝上的事件为 T . 假设两者 
发生的可能性一样，那么 P({H}) = P({T» = |. 






另外，如果这个硬币有偏向，而且正面朝上的机会是反面朝上机会的2倍，那 



例 3 b 掷一枚殺子，若6个面出现的可能性是一样的，这样就有 P ({1}) = 
^({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1/6. 从公理 3 可知出现偶数面朝 
上的概率为 P ({2,4,6}) = P ({2}) + P ({4}) + P ({6}) = ■ 

设 P ( E ) 是定义在样本空间里的事件的集函数,若它满足公理1, 2, 3,则 P ( E ) 
就是 事件丑 的概率.这一定义是现代概率论的数学基础.我们认为，读者会认为 

这些公理很自然,而且与对概率的直觉概念（也即概率是与机会和随机性有关的知 
识）很吻合.进一步，利用这些公理可以证明，随着试验的不断进行,事件发生的 
频率趋近 P ( E ) 的概率为 1. 这就是第8章将要介绍的强大数定律.另外， 2.7 节还 
将介绍概率的另一种解释，即概率可作为确信程度的度量. 

技术注释我们假定概率 P ( E ) 是针对样本空间里的所有亊件五定义的，事 
实上，如果样本空间是不可数集，那么 P ( E ) 仅仅针对那些所谓可测的事件进行定 
义.但是，这并不是概率论的缺陷，因为所有现实中的事件都是可测的. 

2.4 几个简单命题 

这一节证明几个有关概率的简单性质.首先注意到丑和於总是互不相容的， 
而且 EU 於=因此由公理2和公理3可以得到 

1 = P (5) = P(E U 铲） = P ( B ) + PiE 0 ) 

以下的命慝 4.1 便是上式的等价形式. 











下一命题借助两事件的概率给出了它们的并的概率与交的概率之间的关系. 

| 命腰 4.3 P(E UF) = P{E) + P(F)~ P(EF) 

证明： 注意到 EUF 可以表示为两个不相容事件£ 和於 F 的并,根据公理3 

可知 

P(E UF) = P(EU 州 = P(E) + PiETF) 

另外， 由 F^EFUE^F， 再利用公理3也可以得到 

P(F) = P(BF) + Pi^F) 

或等价地， 

PiETF) = P(F)- P(EF) 


将它代入前面关于 P(EUF) 的表达式，命题得证. 

命题 4.3 也可以利用韦思图来证明，如图 2.4. 

将 EUF 分成3个互不相容的部分，如图 2.5 所示•第 I 部分表示的是所有属 
于 E 但不属于 F 的点（也即五 P), 第 II 部分表示的是所有既属于丑也厲于 F 的 
点（也即 EF),miU 部分表示所有属于 F 但不厲于五的点（也即 E-F). 



图 2.4 韦恩图 



图 2.5 韦恩图的3个部分 


从图 2.5 上可以看出， 

EuF = iunura E = iun F = nuin 
由于 i , II， m 是互不相容的，结合公理3可以 得到： 

p(E uf) = P ( i ) + P ( ii ) + P(in) p(E) = P ( i ) + P(n) p(F) = P{ii) + P{m) 
由以上就可以得出 P (五 UF) = P(E) + P(F)~ P(n), 又因为 n=EF, 命题 4.3 得 
以 证明. 口 

例 4 a 某人度假时随身带了两 本书. 他喜欢第一本书的概率为0. 5 ,喜欢第二 
本书的概率为 0.4, 两本书都喜欢的概率为0.3,问两本书都不喜欢的概率是多大？ 
解 ：令玖 表示他喜欢第 i 本书 （i = 1，2)，那么他至少喜欢一本书的概率为 
P(Bi U ft) = P(Bi) + P ( Ba )- P(BiB 2 ) = 0.5 + 0.4 - 0.3 = 0.6 





以下公式计算三个亊件 E , F , G 之中至少有一个发生的 概率： 

P(£UFUGO = P[(£?UF)UG] 

由命理 4.3 可知上式等于 

P(E UF ) + P [ G )~ P[(EU F)G] 

由分配律可知 （E U F)G = EGUFG , 因此由上面式子可得 

P ( EUFUG ) = P { E ) + P { F )~ P { EF ) + P ( G )~ P(EGU FG ) 

= P ( E ) + P(F)- P ( EF ) + P ( G )~ P [ EG )~ P ( FG ) + P ( EGFG ) 

= P ( E ) + P { F ) + P(G)- P ( EF )~ P ( EG )~ P ( FG ) + P ( EFG ) 

以下的命理,也称为容斥植等式 (inclusion-exclusion identity), 可由归纳法推导 
得 _ 

命颺4.4 

p (岛 u 说 u … u e „) = (玖)+ … 



+ ■■■ + (- l ) n + 1 P ( EiE 2 -- E n ) 

其中， Ei l < ia <...< i r P ( Ei l Ei a - E iT ) 表示对集合{ I ， 2 ,…， n } 的所有大小 
为 r 的子集所对应的值求和，和项一共包含项. 

也就是说， n 个事件并的概率，等于这些事件的概率之和，减去两个亊件同时 
发生的概率之和,再加上三个亊件同时发生的概率之和…… 

注释 1. 作为命思 4 .4的直观解释，首先注意到如果样本空间里的某个结果 
不属于任意的尽,那么等式两边都不应该有它的 概率. 另一方面,假设某个结果正 
好包含在 m 个 玖里面 （其中 m > 0)，那么既然它厲于这个结果的概率在 
P ( U 玖）中只计算—次.而且，因为这个结果也被包含在形如玖”匙，… ，队这 
样的个子集中 ， A = 1 ，…， m ,在命题 4.4 等式的右边，这个结果的概率被计 
算了 


⑺ - ©+(T)-... ± (：3 










令 氏 = 所…拉 4 = (u^ Ei) C 表示前 i - 1 个亊件都不发生，利用恒等式 
P (£； i ) = P ( B ,£ i ) + P ( J Bf £? i ) 

可证明 

P(E t ) = P(Et--Ui) + 


P (珥… El-iEi) = P(E i )-P(U EiEi) 

将此代入 （4.4) 式即可得到 

p ( U ^)= E w) - E p ( U E ^i) (4.5) 

因为概率总是非负的,所以，由 （4.5) 式便可直接得到不等式 (4.1). 然后，给定 i, 利. 
用不等式 (4.1) 可得 

P^EiEj) ^PiEiEj) 

此式结合 （4.5) 式，又可得到 （4.2) 式.现在给定 i, 将不等式（4.2> 应用到 
PiUjKiEiEj ), 可得到 

U EiEj) > ^PiEiEi)- J^PiEiEiEiEk) 
i<i i<i k < j<i 





解： 仍假设所有的36种可能结果都是等可能发生的, 
果满足数字之和等于 7 ,即 (1,6),(2,5),(3,4),(4,3),(5,2),(6,1). 
和为7的概率应该是 6/36 = 1/6. 




















我们也可以从烦序地选择这样的观点来计算 P ( N ). 从20 个人中顺序地选择 
5个人,一共有 201918.1716 种等概的试验结果.但是选择5个没有夫妇关系的5 
人组,只有 2018161412 个试验结果.这样 


W = 


2018.161412 
2019181716 ‘ 


经过简单的计算,这两个结论是相同的，至于具体的计算就留作练习吧！ _ 

例 5 c —个委员会由5人组成,需要从6个男人和9个女人中随机选取，问 


委员会由3个男人和2个女人组成的概率有多大？ 

解： 假定随机选取则意味着所有种组合的选择是等可能的，而与亊件 
“3男2女”相关的结果有 ©© 种，因此所讨论事件的概 率为： ©©/(^) 


= 240 

= lool' 


例 5 d —个坛子里共 n 个球，其中一个做了 标记. 如果依次从中随机抽取* 
个球，问做了标记的球被取出来的概率有多大？ 

解：从 n 个球中选取 fc 个球，—共有种选取方法，每一种选取方法都是 
等可能的.与亊件“选中带标记的球”相关的选法共有 © GD 种，因此 


标记球被取出 } 


OTD k 
G)"" 


也可以这样求解 ：设* 个球是順序地被取出 ，记卓 表示标记球在第 i 次被取出 
= 既然所有球在第 i 次被抽取的概率是一样的，可知 P ( Ai ) = 1/ n . 

而这些事件是彼此互不相容的，因此， 


标记球被取出 } =尸( lj ^)= E 尸⑷=兰 


另外， P { Ai ) = 1/ n 可以这样 推导： 考虑到抽球的过程是有顺序的，一共有 
..( n-fc + l ) = „!/(„-*)! 种等可能试验结果，其中有 ( n - l )( n - 
2 )...( n-i + l )( l )( n - i ).. ( n-Jb + l ) = ( n - l )!/( n - fc )! 种试验结果表示标记 



序排列也是等可能的.并且每一种颜色次序出现的概率为 n!m!/(n + m)!. 

例如，假设有2个红球，记为 n.rj； 两个藍球，记为 b^ba； 这样，一共有4!种 
球的排列，每一个颜色次序的排列，对应于2!2!个球的 排列. 如下面四个球的排列 
对应于相同的颜色次序 排列： 

ri,bi,r2,ba ri.ba.rj.bi r2,bi,ri,ba r2»ba,ri,bi 
因此,每一个颜色次序排列出现的概率为 4/24=1/6. ■ 

例 5f 在扑克牌游戏中，一手牌有5张,如果这5张牌是连续的,但又不是同 
—花色,那么称为顺子，比如，“黑桃5,黑桃6,黑桃7,黑桃8,红桃9”就是一副顺 
子.试求一手牌是顺子的概率是多大？ 

解： 假设所有( 5 5 2 )种组合都是等可能的.先看看由 “A,2,3,4,5” 这 5 张牌（花 
色不同）能组成多少个顺子，首先， “A” 有4种可能，同样其他 4 张牌也分别有 4 
种可能,所以，一共有妒种可能，但是，其中有 4 种可能是5张牌是同花色（这种情 
况称为同花顺),所以一共是 4 s -4 种 順子. 类似地，“10, J，Q, K, A” 这种顺子也有 
4 5 - 4种，因此一共有10 x (4 8 - 4) 种顺子.这样所求概率为10 x (4 B - 4)/( 5 g 2 ) « 

0 00 «5g —手牌有5张,如果其中3张点数一样，另两张点数也一样的话，称为 
“福尔豪斯” (full house, 也就是说“福尔豪斯”由3张点数一样的牌加上一对组成) ■ 
试问一手牌恰好是“福尔豪斯”的概率是多大？ 

解： 同样也设所有( 5 5 2 )种组合都是等可 能的. 注意到像 “2张10, 3张 J” 这 

样的“福尔豪斯” 一共有 © 种组合,又因为一对的点数有13种选择，在选定 

一对的点数后，剩下12种可能的点数用于选择3张一组 的牌. 所以所求概率为 

13 x 12 x ®(S/( 5 5 2 H 施 4 ■ 








由于玖 （i = 1,2,3, 4) 是互不相容的事件,其中某一人拿到这13张黑桃的概率为 
« 6.3 x 10 _ia 

( b ) 现来求毎个选手恰好拿 一 张 “ A ” 的 概率. 先把 “ A ” 放一边，剩下48张 
牌分给4个人的可能分派方法数为 ( 12 ， U 接下来,将4张 A 分给4个 
选手的可能分派方法数为4!,因此，每乂_到1张 A 的所有可能分派方法数为 
.从而所求概幸为 

41 X (.2,1242,12)/(13,13^3,13) » 0105 5 ■ 

有些亊件的概率是出乎想象的，下面两个例子就是如此 • 

例 5 i 房间里有 n 个人,没有两人在同一天生日的槪率是多大？ n 多大时，才 
能保证此概率小于1/2? 

解： 每个人的生日都有365种可能,所以《个人一共是 365" 种可能（此处忽 
略有人生日是2月29日的可能性).假定每种可能性都是一 样的. 可知所求事件的 
概率为 （365)(364)(363) … （365 - n + 1)/365". 令人惊异的是，一旦 n > 23,这个概 
率就比1/2要小，也就是说,房间里人数如果超过 2 3的话,那么至少有两人为同一 
天生日的概率就大于 1/2. 很多人一开始对这个结果很吃惊，因为23相对于一年 
365天来说太小了，然而，对每两个人来说,生日相同的概率为^5 = gg ， 23 个 
人，一共可以组成= 253对,这样看来,上述结果就不会太令人吃惊了. 

当房间里人数达到50时，至少两人同一天生日的概率大概为97%，如果人数 
达到100,那么两人同一天生日的优势（优势的定义见 3.3 节）为3 x 10 6 : 1,也就 


















现在计算也即正好有 2 i 对“进攻防守对”的概率.首先，一共有种方 
法选取 2 i 个进攻队员和 2 i 个防守队员以便组成“进攻防守对”，这 4 i 个人能够 
组成 (2*)! 种可能“进攻防守对”(因为第一个进攻队员可以和 2 i 个防守队员配对， 
第二个进攻队员可以和 2 i - 1个防守队员配对,依此类 推). 剩下的20 - 2 i 个进攻 

队员（防守队员）只能内部 配对. 一共有 ® a (2<)! 种可能方式 


P2i = - -^40)r ~~— ko， 1 ，-.， 10 

2 ao (20)T 

这样,根据上述公式就可以算出 Pa *, * = 0,1, -,10. 另外,利用 Stirling 公式 （n I 
„ n + va e -" V 55 i ) 还可以算出其估值.比如 

Po « 1.340 3 x 10 -6 Pio « 0.345 861 P m « 7.606 8 x 10~ 6 ■ 

接下来三个例子是命题 4.4 的运用•在例51中引入概率来迅速解决计数问题. 
例51 —个俱乐部里有36人会打网球, 28人会打软式网球，18人会打羽 毛球； 
22人会打网球和软式网球，12人会打网球和羽毛球，9人会打软式网球和羽 毛球； 


记 iV 为俱乐部总人数.设从俱乐部中随机地抽取一人,又假设 C 为它的 
%, 那么抽到一人刚好在 C 7 中的概率为 

C 中人数 


i 少会打一种球的人数为43人. ■ 

F 来的例子不但有一个很让人吃惊的答案,而且在理论上也很有意义 • 

5 m (配对问题）房间里有 W 人参加 舞会. 如果所有人都将帽子扔到屋中 










由命题 4.4， 

\t=l / i=l 

+- P(EiE 2 … Eio) 


为了计算 PiEi^-'-EiJ , 先注意到 20 个人坐成一圏，一共有19!种可能. 
(为什么?）对于指定的 n 对夫妇,在排位时，为使这 n 对夫妇坐在一起,先把这 n 
对夫妇中的每一对夫妇看成一个整体,这样，在排位时一共有20 - n 个对象，在圆 
桌上一共有 (20- n - l )! 种排位的方法，当样位确定以后，这 n 对夫妇之间又有排 
位问题，是男左女右还是男右 女左. 这样，将这 n 对夫妇排在一起的排位方法一共 
有 2"(19- n )! 种，我们得到 


再由命题 4.4, 可以得到至少有一对夫妇是坐在一起的概率为 

(W 鎩-饮鎩+ (，鎩 


所有的妻子都不坐在她丈夫旁边的概率大约为 0.339 5. ■ 

*例 50( 游程）假设某个赛季过后，田径队的成绩为《胜 m 败.通过对这 
个输和贏的序列的研究，可望得到关于田径队的潜力的进—步的 信息. 一种办法是 



满足条件+ • • • + ®r = «的正整数解 XI , ' ,Xr 所组成的向童 • 现在我们观察， 
有多少个输贏序列满足如下条件：⑴具有 r 个贏的游程， （ ii ) 第一个贏的游程的大 
小为奶，……，第 》• 个贏的 游程的大小为 av 为此, 我们令奶为第一个贏的游程 
以前输的次数,!/ 2 为第一个贏的游程与第二个贏的游程之间输的次数,…… - Vr+l 
为最后一个贏的游程后面输的次数■这些 w 满足 

Vi+V2 + --+ Vr+1 =»W yi> 0,y r+ i > o.jfe > 0，i = 2,.. •，r 
这些：，讲与相应的序列可以用下列图形形象地表示： 


T,T,..T,WW--WL-LWW-W.._WWJ i ...L. 









i /1 + jfe + • • • + Vr+1 = m + 2 

的正整数向 *： (扒， … , yr + l ) 的个数，在第 1章命题 6.1 中,指出这个方程的正整数 
解的个数为 . 这样，具有》•个贏的游程的输贏序列的个数为(饥广 1 )乘 
以灼+…+ Zr L „的正整数解的个数.再一次利用第1章命题 6.1 的结论，得到 
如下结论：具有 r 个贏的游程的输贏序列的个数为 (；：})• 由于我们假 

定 ( n t m ) 个输贏序列是等可能的，故 

P{ 贏的游程的个数为 r} = r>l 

例如,《 = 8，m = 6 则具有 7 个贏的游程的概率为 (J) /(^ 4 ) = 1/429. 此处假 
设所有的个输贏序列是等可 能的. 现在假定这个队的输贏结果是 WLWLWL- 
WLWWLWLW. r = 7 发生的概率很小，此时,我们可能会认为 输贏的 概率会随着时 
间变化，往往输球以后贏球的概率较大，而贏球以后输球的概率大.排球比赛中容 
易出现这种情况，因为贏球以后，保持了发球权,这样会给对方进攻的 机会. 另一方 
面，若输*的结果是 WWWWWWWWLLLLLL, 此时， />{*[ 的游程的个数为 1} = 
QQ /(^ 4 ) = 1/429. 这种情况下，我们就要怀疑球队的状况在下滑. ■ 

•2.6 概率： 连续集函数 

一列亊件 {£；„,« > 1 } 称为递增列,如果 

EiCEiC - CEnCEn + lC -- 

反之,称为递减列，如果 

EiDE2D -Z)E n D En +1 〕… 

如果 { E n , n > l } 是递增事件列，定义一个新的事件，记为 n lim^n, 如下： 
n lim E n = p £；i 





这样就证明了当&为递减事件列的时候 命题的 结论也成立. 

例 ea (概率与悖论）设想有个无限大的坛子，以及无限个编了号码 1,2,3.. 
的球，进行以下的 试验： 


在12点差1分的时候,将1到10号球放进去，并把10号球♦出来（假设放 
球和拿球的时间忽略不计)； 

在12点差1/2分的时候，将11到20号球放进去，并把20号球拿 出来； 

在12点差1/4分的时候，将21号到30号球放进去，并把30号球拿 出来； 

在12点差1/8分的时候,…… 

等等.问 题：在 12点的时候，坛子里有多少球？ 

问题的答案很明显：12点钟的时候坛子里有无限个球.因为只要不是号码为 
10 n,n > 1的球，都将在12点前放进去，并且不会被取出来.因此，如果试验是这 
样进行的话，问题已得到了解决. 

现在换个 试验： 

在12点差1分的时候，将1到10号球放进去，并把1号球♦出来； 

在12点差1/2分的时候，将11到20号球放进去，并把2号球拿 出来； 

在12点差1/4分的时候，将21号到30号球放进去，并把3号球♦出 来； 

在12点差1/8分的时候, • ••… 

等等.新的试验在12点钟的时候坛子里应该有多 

非常奇怪，答案是在12点的时候,坛子里一 :有. 理由是 ， am 

球在12点前都将从坛子里取出，比如号码为 n £ I (1/2)"- 1 到12点的时 
候被取出，因此,对于任意号码的某个 * 

坛子就是空的. 

从上述讨论可以看出，取球的方式不一样会导致结果不 一样： 前一种情况，只 
有号码为 10 n , n^l 的球会被取出来,但在后一种情况下，所有的球都将被取出来. 
现在设想在取球的时候,是从当前所有球中随机取出， 也即： 

在12点差1分的时候，将1到10号球放进去，并随机取一个球 出来； 



等等.这种情况下，在12点时，坛子里有多少球？ 

解： 将要证明，在12点时坛子为空的概率为 1. 

首先考虑1号球, 定义私 表示在“进行 n 次取球后，1号球仍在坛子里”这 


—事件.很 显然： 


P(En) = 


9.18-27 "(9 n ) 
1019-28-(9 n + l ) 
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1号球)，等等.这样，12点钟时，1号球仍在坛子里这一事件可以 写为： n ~= l ^ n , 
E n (n > 1) 为递减事件列,根据命题 6.1 可知： 

P {12 点时1号球仍在坛子里} 

=p (5 在 ) = n^ p( ^* )= n (9^1) 

7 蝴： 

即等价于 证明： oo 

SK 1 分 。0 

因为,对任意 m > 1,都有 

5( 1 + 心如 + 幻 

>5 + H" + 忐 = 5§含 

因此，令 m — oo 且利用 ESil /< = oo 可以得到 

n( 1+ ^) =o ° 

令只表示 “ i 号球在12点时仍在坛子里”这一亊件.前面己证明 P ( Fx ) = 0, 类似地， 
可以证明对任意 i ， P ( F i ) = 0. (比如，同样的推理可以证明对任意 i = 11，12, . •. ，20 
有 p ( f <) = n ~= 2 [ 9 n /( 9 n + i )]=°)- 因此, 12 点时坛子非空的概率为 p ( uu ), 
利用布尔不等 i (见自检习题 14) 可得： 


因此，在12点时，坛子为空的概率为1 





本文曾 叙述： 一个事件的概率，是指在重复进行某个试验的情况下，对该事件 
发生频率的一种度量.然而，概率还有另外的用处.比如，我们经常听到这样的评 
论，“90%的可能是莎士比亚真地写了《哈姆 雷特》 ”，“奥斯瓦尔德独自暗杀肯尼 
迪总统的可能性为80%”，这又作何解释？ 

最自然又简单的解释是，概率是人们对自己的说法的确信程度的一种度量，也 
就是说,前面的陈述者比较确信“奥斯瓦尔徳是独立行动的”，而且更加确信“莎士 
比亚写了《哈姆雷特》”.概率作为个体确信程度的度量这种解释经常被称为主观 
概率 ( Subjective ). 

假设“确信程度的度量”满足概率的所有公理是很合情合 理的. 比如，如果我 
们有70%的把握认为是莎士比亚写了《凯撤大 帝）， 而只有10%的把握认为作者 
是马洛，那么我们应该有80%的把握认为作者是莎士比亚或是马洛.因此，无论把 
概率解释为确信程度的度量,还是事件发生的频率,其数学属性是不改变的. 

例 7 a 假设有7匹马参加比赛,而您认为1号马和2号马各有20%的机会获 




更好？ 

解： 基于对比赛结果的主观认识,赌第-种贏的概 率是： 0.2 + 0.2 + 0.15 = 0.55, 
而第二种是 0.2 + 0.1 + 0.1 + 0.1 = 0.5,因此,赌第一种 更好. _ 

应当指出，主观概率也应符合概率论的公理.但实际情况并非 如此. 例如，我 
们向某人了解对天气的看法时，经常提这样的 问题： 

( a ) 今天下雨的可能性是多少？ 

( b ) 明天下兩的可能性是多少？ 

( c ) 今明两天都下雨的可能性是多少？ 

( d ) 今天或明天会下兩的可能性是多少？ 

这个人经过考虑,很可能会给出下面的 答案： 30%,40%,20%,60%.显然,这样的回答 
与概率论的公理是相矛盾的.我们当然希望经过指出这种错误以后，这个人会修正 
他的回答，因为个人的看法不是精确计算出来的，是带有误 差的. （一个可能可以接 
受的修 正是： 30%, 40%,10%,60%.) 

小 结 


如果令 S 为表示某个试验的所有可能结果的集合，那么 *5 称为该试验的样本 
空间.一个事件就是 S 的一个子集•如果次，< =1，…， n 为一系列亊件，那么称 








以下条件，则称 P04) 为4的 概率： 

(i)0< P{A) < 1 
⑼ P(S) = 1 

(Ui) 对于任意互不相容亊件 為, i > 1 ，有 

P{A) 表示试验结果包含在亊件4里的概率. 

容易 证明： 

P^) = 1-P(A) 

一个有用的 结果： 

P{A UB ) = P(A) + P(B)~ P(AB) 

可以推 广为： 

P (0^)=E P ⑷ -ZX P (▲⑹ + E E E p (^^) 

\<=1 / <=1 i<i i<j<k 

+ -- + (-l) n+1 P(A 1 -A n ) 

如果 S 是有限集，且其中每个结果发生的可能性是一样的，那么 

其中|£|表示事件£所含的结果数. 

P(A) 可以理解为频率的趋势或者相信程度的度量 • 

习 题 









































( a ) 随机取两个球，问它们是同一种顏色的槪率？ 

( b ) 从坛子里随机取一个球，然后放回再第二次取球，求取出的两个球颜色相同的概率. 



两所学校的棋类俱乐部分别有8和 9 名棋手，每个俱乐部各随机选4名参加两校间的对 
抗赛.选出来的棋手随机地和另一俱乐部选出来的棋手进行两两 BWTF 棋,假设丽贝卡和 
妹妹埃莉斯分别在这两校的棋类俱乐部，求以下亊件的概率： 






































































_ 委员会中毎个年级恰好一 个人； 

委员会由两个二年级学生和两个三年级学生 组成； 
委员会仅由二年级成三年级学生组成. 


山 )=; N(Ai )-5353 N ( A * A i) + 





















3 章条件概率和独立性 


3.1 简 介 























邮 件概率： （a) 第一枚正面朝上 •（b) 至少有一枚正面朝上 • 

电 解：令 J5={(H,H)} 表示事件“两枚硬币都是正面朝上” •，令 F={(H,H),(H,T)} 


表示事件“第一枚硬币正面朝 上”； 令 A={(H,H),(H,T),(T,H)} 表示亊件“至少有 
—枚硬币正面朝上”.那么 （a) 的所求概率为 

对于 (b), 有 

因此,己知第一枚硬币正面朝上的条件下,两枚硬币都是正面朝上的条件概率为1/2, 
而已知至少一枚硬币正面朝上的条件下，两枚硬币都是正面朝上的概率为1/3•很 
多学生对后者感到吃惊,他们认为至少有一枚正面朝上这个亊件有两种可能性，两 
枚都正面朝上和只有一枚正面朝上，他们的错误是把这两种情况看成等可能的了. 
事实上，“至少一面朝上”这个事件包含了 3个 结果： (H,H),(H,T),(T,H). 而这三种 
结果都是等可能的，而 （H，H) 只是其中一个结果，因此其条件概率为1/3是很自然 
的了. ■ 

例 2c 桥牌游戏里，52张牌平均发给东、西、南、北 四家. 如果南和北一共有 
8张黑桃 ，问： 东有剩下5张黑桃里的3张的概率是多大？ 

解： 最简单的方法是缩减样本空间.也即，已知南北26张牌中共有8张黑桃， 










球”这一亊件,而 S* 为 “n 个球中含 fc 个蓝球”这一亊件，那么 
P(B|Bfc) -T(^r- P(B k ) 

现在, P(B k \B) 为如下亊件 概率： 随机从装有 r 个红球, 6 - 1个蓝球的坛子里随机 
抽取 n _ 1个球,正好有 fc - 1个蓝球.这样， 

p 卿 )=(r_i) ( 丄 )/(W) 

利用上述结论，以及 p ( b ) =丄和超 几何财 p(s*) = o { n L k )/{ r t b y 
可得结果 P(B\B k ) = k/n. ■ 

在 （2.1) 式两边同时乘以 P(F), 可以得到 

P{EF) = P(F)P(E\F) (2.2) 

也就是说，公式 （2.2) 说明了 E 和 f 同时发生的概率，等于 F 发生的概率乘以 F 
发生的条件下五发生的条件概率•公式 （2.2) 在计算亊件的交的概率时非常有用 • 
例％为选修法语课还是选修化学课这件事，茜琳犹豫不决.她估计如果选修 
法语课,则获得 “A” 等成绩的概率为1/2,而如果选修化学课，则获得“ A” 等成绩 
的概率为 2/3. 如果茜琳通过掷硬币来作决定，问她将选修化学课，并获得“八”等 
成绩的概率是多大？ 

解：如果令 （7 表示“茜琳选修化学课”，而乂表示“她获 得了* A， 等成绩”， 
那么所求概率为 P(CA), 利用公式 （2.2) 计算如下： 

P(CA) = P{C)P(A\C) = |x| = i ■ 

例 2f 坛子中有8个红球与4个白球，现在顒序地无放回地从坛子中取出两 
















已知这 fc 个人拿:到自己的帽子的条件下，其余 AT - fc 个人就随机地从这 JV - 个 
帽子中选择帽子.这样，问题就转化为 TV-fc 个人都没有拿到自己的帽子的计算问 
题.因此 


P ( G \ E ) = P N . k = 


P(EG) = ^f^P N . k 

而“恰有 fc 个人♦到自己的 帽子” 的事件发生的充要条件是“其中某 fc 个人拿到 
自己的_子，但其余的人都没有拿到自己的帽子”的发生.这样 


例 2h —副52张牌随机地分成 
的概率. 

解： 定义亊 件冯， < =1，2,3,4如_ 


分成4堆,每堆13张.计算每一堆正好有一张 “A” 


玢={黑桃“八”在任何一堆里} 

Eh = { 黑桃 “A” 和红桃 “A” 在不同的堆里 } 

E 3 = { 黑桃 “A” ，红桃“ A” 和方块 “A” 在不同的堆里 } 
丑 4 = {4张“人”在不同的堆里} 


由于玢 为样本空间 S, P { Ex ) = 1,红桃 “A” 可以在黑桃 “A” 这一堆， 
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题中，直接计算某个事件的概率是非常困难的,但是一旦知道第二个亊件发生与否， 
就容易计算了.我们接下来用一些例子阐述这点. 

例 3 a (第1部分）保险公司认为人可以分为两类,一类为容易出亊故者，另一 
类则为安全者.他们的统计表明，一个易出事故者在一年内发生事故的概率为 0.4, 
而安全者,这个概率则减少为 0.2, 若頷 定第一类人占人口的比例为30%,现有一个 
新的投保人来投保，问该人在购买保单后一年内将出事故的概率有多大？ 

解： 以这个投保客户是不是易出事故的人作为条件，我们将得到所求概率.记 
Ai 表示“投保客户一年内将出事故”这一事件,而以 A 表示“投保人为容易出事 
故者”这一亊件,则所求概率 P (七）为 


P{Ai) = P(Ax|^)P(i4) + P(i4!|i4 c )P(i4 c ) = 0.4 x 0.3 + 0.2 x 0.7 = 0.26 ■ 

例 3a (第2部分）假设一个新的投保人在购买保单后一年内出了事故，问他 
是容易发生事故者的概率是多大？ 

解： 所求概率为可从下式计算 得到： 

例 3b 考思一副52张扑克牌的如下 玩法： 将洗好的一副牌都扣住，一次翻开 
—张.玩家只有一次机会可以猜接下来翻开的一张是否是黑桃 “A” ，如果是,那么 
玩家 获胜； 如果不是，那么玩家输.另外，如果一直到剩下一张还没有翻开，而此前 
没有出现过黑桃 “A” ，且玩家也没有猜过，那么玩家也获胜.较好的策略？较差的 

策略？ 

解： 其答 案是： 任何一种策略，获胜的概率都是 1/52. 为了说明这点，我们将 
用归纳的方法证明这个 结论： 对于 n 张牌，其中有一张牌为黑桃 “A” ，那么不管 
采取何种策略，获胜的概率都是 1/n. 这点显然对 n = 1是正确的.假设对 n - 1 
张牌，该结论也成立.现在考虑 n 张牌,对于任一给定策略，令 p 表示按该策略第 
一次就猜牌的概率.如果第一次就猜牌,那么获胜的概率为 1/n. 另一方面,如果按 
策略第一次不猜牌,那么获胜的概率就是第一张牌不是黑桃 “A” 的概率 (n-l)/n, 
乘以在第一张牌不是黑桃 “A” 的条件下,获胜的条件概率.而此条件概率就等于含 
—张黑桃“ A” 的 rz - 1张牌的玩牌游戏中获胜的概率,利用归纳假设,该条件概率 
为 l/(n-l), 因此，按策略第一次不猜牌的条件下,获胜的概率为= ^- 
因此，令 GT 表示“第一次就猜牌”这一事件,我们可得 

P{ 获胜 } = P{^tt|GT}P(G) + 戶 {_|0°}(1 - P(G)) = ip+i(l-p) = i ■ 






比如, m = 5,p = 1 

条件概率为 5/6. _ 

例 3d —项血液化驗有95%的把握将患有某种疾病的患者诊断出来，但是， 
这项化验用于 徤康人 也会有1%的“伪阳性”结果（也即，如果一个健康人接受这 


项化验，则化验结果误诊此人患该疾病的概率为 0.01). 如果该疾病的患者亊实上 
仅占人口的0.5%,若某人化验结果为阳性，问此人确实患该疾病的概率为多大？ 
解：以 2?表示“接受化验的这个人患该疾病”这一亊件， B 表示“其化验结果 


为阳性”这一亊件,所求概率 P(D|£0 为 


p(niF , = P(DE) = P(E\D)P(D) 

v 1 P(E) ~ P{E\D)P(D) ^ P( < E\D c )P(D a ) 

= 0.95 xOm + O^x 0.995 = ^ 怒 0 . 323 
因此,在验血结果为阳性的人当中，真正患该病只有32%.对于这一结果,许多学生 
感到非常吃惊（因为验血似乎是个好办法,他们总认为这个数值应该髙得多)，因此， 
有必要给出第二个解法.与前一个解法比较，第二个解法尽管不严格,但却更直观. 

由于亊实上患该疾病的人占的人口比例为0.5%,平均地算，接受化验的每200 
个人中应有1个患者,而这项化验只能保证疾病的患者被诊断为患病的概率为 0.95, 
因此,平均地说，每200个接受化验者能保证有 0.95 个人被诊断出，并且此人真的 
• 但另一方面（平均地说)，在其余199个健康人中，这项化验会错误地诊断出 
(0.01 个人患该病，因此，每当诊断出 0.95 个病人时（平均地说）总有 199x0.01 
个健康人误诊为患病.于是,当验血结果确定某人患该病时，正确诊断所占比例为 

0.95 + 199 x 0.01 = 294* °' 323 _ 




査项目对健康人不给出阳性,但是对于患有糖尿病却不患有这种疾病的人来说，有 
30%的可能给出阳性结果.那么我现在该如何做？是做进一步检査,还是立即手术？ 


况下，琼斯患该病的概率.令 D 表示“琼斯患此病”这一事件，表示“项目 A 为 
阳性结果”这一事件，那么所求条件概率尸(別五） 为： 

P 剛=鬻= p ^ p ^ pIe ^ pW ) = 1 x 0.6 +0.3 x 0.4 * 0 833 
注意到我们以琼斯是否患有此病为条件计算了项目 A 为阳性结果的概率，并且利 
用了如下 事实： 因为琼斯患有糖尿病，已知其不患上述疾病的条件下项目 A 为阳 
性结果的条件概率等于 0.3, 因此,医生现在能80%的把握确定琼斯患有 
此病,所以应该建议手术. ■ 

例 3f 在某刑亊调査过程中，调査员有60%的把握认为嫌疑人确犯有此罪•假 
定现在得到了一份新的证据，表明罪犯有某个身体特征（左擻子，光头或者棕色头 
发等),如果有20%的人有这种特征,那么在嫌疑犯具有这种特征的条件下，检査官 
认为他确犯此罪的把握为多大？ 

















弊的条件下这种打法的可能性大于他们不作弊的条件下这种打法的可 能性而 
控方并没有作此声明.因此，他们关于新证据是支持作弊的假设的这一断言是无 
效的. ■ 

在一咖啡店喝冰茶时，我要了一杯水和同样杯子的一杯茶.喝茶时，我不断地 
向茶杯里续水.假设水和茶充分混合，那么关于我的最后一口是茶的概串问题引出 
了以下问颼中的00,并且给出了有趣的答案. 

例 3h 坛子1里面最初有 n 个红色分子，坛子2里面有 n 个蓝色分子，按照 
以下方式进行 搡作： 从坛子1里随机移走一个分子,然后,从坛子2里取一个分子 
(如果里面还有分子的话)放进坛子1里.一直进行这样的搡作,直到坛子1和坛子 
2中所有的分子都被移走（一共从坛子1移了 2r» 次,但是从坛子2 —共移走了》 
个 ffi 分子 •)• 

( a ) 求 P (用，其中 iZ 表示事件“从坛子1最后一个移走的分子是红色的” • 

(b) 如果坛子1里最初有 n 个红分子， fri 个苴分子,而坛子2里有个红分 
子,如 个苴 分子，重求上述概率 • 

解： （a) 将注意力放在某个特殊的红分子上,令 F 表示“该特殊的红分子是最 
后一个被移走的” •若 F 发生，那么在坛子1中移走了 n 个分子以后（相应坛子 2 
中的 n 个蓝色分子也已经被移走了),这个分子仍然在坛子1中■令风表示“该分 
子不是第 i 次被移走的分子”，显然有 

P(F) = P ( Nr " N n F ) = P( JVi )P(N 2 |JV,)-- P ( N n \ N ! ■■- N ^ PiF ^ ■■■ N n ) 
其中/>(尸旳，…， JV„) 表示坛子 1 中共有 n 个分子（包括那个特殊的红色分子)， 




因此，如果我们给 n 个红分子标号，令兩表示红分子；;_最后被移走，那么通 
过上面的分析可得 , n1 

P («,)=( l -~) - 

因为亊件均互不相容,我们可得 

W) = = Em) 

j=» J=» 

( b ) 现在假设坛子 i 里最初有 q 个红分子和个 fi 分子 （i = 1,2). 为了计算 
最后移走的分子是红分子的概率 P(R), 将注意力集中在坛子1里最初的某个特殊 
的分子（这个特殊的分子可以是红的，也可以是 fi 的).类似 （ a ) 可得该分子在最后 
被移走的概率为 




卜坛子被取空以^ 
生前面那个亊件: 


后，那个特殊的分子 
发生的条件下,继续 


上式中，因子 (1 - 表示当第二- 

仍然在第一个坛子内的概率，而 l/(rj + 6 i ) 为在1 
从坛子1内一个一个地取分子，而那个特殊的分子被最后取出的 概率. 现在记0为 
“最后移走的分子是在坛子1中的分子”，则 
PiP) = (n +bi)p = ( l - 
为计算 P(R), 我们以 O 是否发生为条件，得到 
P(R) = P(R\ 0 )P( 0 ) + PiR^P^) 

= ^ rC 1 - 广+击卜 ~( 1_ 

如果 n = r a + 6 a = n , 这样两个坛子里最初都有 n 个分子，当 n 充分大时， 

当发现新的证据时,假设成立的概率之变化可以表示为假设的“优势”之变化， 
其中优势的概念定义如下 • 


定义事件 A 的优势定义为 

P ⑷ 

Pi ^) 

即事件4的优势告诉我们该事件） 

举例来说，如果 P(A) = 2/3,那么 P(A) = 2P(A% 因此，事件 A 的优势等 

于 2. 如果某事件的优势等于那么通常称支持假设成立的优势为比 


中发生的可能性是3 
















条件概率和独立性 


用组合方法指出这个概率等于 1/52. 现在利用条件概率的方法进行计算. 令 E 为 
事件 “翻出 第一张 A 后又接着翻出某一牌（例如 re )” .将牌 rr 去掉，记0为剩下 
的51张牌的随机次序，我们有 

P(£?) = ^P(£|0)P(0) 

对于给定的 O, 对应于52个整副牌的次序,它们相应于把 a: 插入由 O 所形成的52 
个位置.显然这52个位置是完全等概率的，而事件 B 只相 应于; c 插在第一张 A 后 
面的位置，这样 P(£?|0) = 1/52. 这说明 P ( E ) = 1/52. ■ 

现在假定， F t , - F n 是一组互不相容的事件，并且它们的和亊件为必然亊件 
(称为完备亊件组). 

现在假设 E 发生了（新的证据)，我们想要计算6发生的概率,利用公式 (3.4), 
我们有如下命题. 

— 

命心 _ =帶- 广卿哪 (3.5)! 

V ' V' PIFAFAPtFA 


公式 （3.5) 称为贝叶斯公式，最早由英国哲学家托马斯 • 贝叶斯 提出. 如果我 
们把亊件6设想为关于某件亊件的各个可能的“假设条件”，那么，贝叶斯公式可 
以这样 理解： 它告诉我们，在试验之前对这些假设条件所作的判断 | 即 P ( A )]， 可以 
根据试验的结果来进行修正. 

例 3 k —架飞机失踪了，推测它等可能地坠落在3个区域.令1 - 氏表示飞 
机坠落在第 i 个区域时被发现的概率 （ A 称为疏忽概率，它决定于该区域的地理和 
环境条件).已知对区域1的搜索没有发现飞机,求在此条件下，飞机坠落在第 i 个 
区域 (i = l ，2,3) 的条件 概率. 










































DNA 相匹配的概率为 （1 - 10- 5 ) 9999 , 所以® 

酬泛)=10~ 6 (1 - 10- 5 ) 9999 (1^^) 

现在我们己经计算得到 P(M|G) 和 P ( M \ G ^) 的公式，结合 P ( G ) = 
公式代入到 P { G \ M ) 的表达式中，得到 
尸 (G|3f) = - " 


卜 10- 5 (1 - 10 000a)" 


因此，如果律师最初认为任一有犯罪前科的人作案的可能性是没有犯罪前科的人的 
100倍（也即 c = 100), 那么 a = 1/19 900,且 P(G|M) = 1/1.099 « 0.9099. 如果律 
师最初认为 c = 10,那么 <» = 1/109 000,且 P { G \ M ) = 1/1.99 w 0.5025. 如果律师 
最初认为任一有犯罪前科的人作案的可能性与镇里其他人是相同的 （c = 1)，那么 
a = 10- 6 , 且 P(G|M) = 1/10.9 w 0.0917. 因此,概率变化范围是从大概9%(此时律 
师最初假设所有人作案的概率一样）到91%(此时他认为每个有犯罪前科的人作案 
的概率为其他任一居民的100倍). ■ 


3.4 独立事件 


本章前面的例子显示：己知 F 的条件下五发生的条件概率 P ( E \ F ) —般来说 
不等于£发生的（无条件）概率 P ( E ). 也就是说，知道了 F 已发生通常会改变 S 
的发生机会.但在一些特殊情形下， P ( E \ F ) 确实等于 P { E ), 此时我们称丑和 F 
①文中的公式可以这样 理解： 对于概率 P ( M | G «) 利用全概公式可得 
P ( M \( T ) = P ( C | G c ) P ( Af | CG c ) + 


f 是不可能事件 f 

& 人中间，而 M 表示这 10 000 • 


是不可能亊件的*率，这是国 i 


I 为表示作案者在除 AJ 
6—匹配者，故 PmC ^ G 0 ) = 






























为解 （b), 考虑任一个由 ib 个成功、 n - k 个失败组成的前 n 个结果的特定序 
列.由独立性知，毎个这样的序列发生的概率为由于共有个这 
样的序列（由 * 个成功与 n - fc 个失败组成的序列总数为 n!/[fc!(n-fc)!]), 故所 
求概率为 

/>{ 恰有 /fc 次 成功卜 ©^(1 


为解 (c), 我们由 （a) 注意到，前 n 次试验全成功的概率为 P[Em • • • 琛）= p n . 
因此,运用概率的连续性属性（ 2 .6节),我们可得所求概率 P (门二 耵)为 
p(Q£?)=p( n limQ£f) = n limP(n£?) 




如果 p<l 
如果 P =1 


例 4g 由 n 个元件组成的系统称为 
并联的，如果至少有一个元件工作正常，那 
么整个系统都工作正常（如图 3.2). 对于 
这样的系统，如果元件 i 工作正常的概率 
为 P< ，i = 1, . • • ，《，并且各元件的工作状态 
相互独立.那么整个系统工作正常的概率 
是多大？ 



图 3.2 并联 系统： 只要有一个开关是 
通的, 4与丑之间就是通的 













































个玩家每人只有一个单位的赌资. 

赌博，要么贏一个单位的赌资,要么失去一个单位的赌资.他会继续赌下去,直到他 
的赌资成为0或 n. 由于 n 个玩家的能力是完全相同的，因此，在这种情况下，玩 
家 i 成为最后胜利者的概率为 1/n. 

现在假定 n 个玩家分成 r •个组，第 i 个组内含 n* 个玩家， i = 1,…，》•.这样， 
第 i 组的玩家成为胜利者的概率为 m / n . 如果把 i 组的玩家成为胜利者看成 i 组 
的胜利，在各阶段各组的赌资就是组内各玩家赌资的总和，将赌博看成团体间的赌 
博.这样,在初始状态各参赌团体的赌资为《*，< = 1,一 ，r. 每一阶段的赌博，参赌 
的团体的赌资增加一个单位或减少一个单位，显然，第 i 个参賭团体胜利的概率就 
是 Pi = m / n . 由分析可以看出，这个结果与各阶段的参赌团体的选择是无关的. ■ 
接下来的例子是著名的“赌徒破产问题”. 


—元.一直这样下去，直到某-方钱输光.假定连续抛掷硬币是独立的，且每次的 
结果正面朝上的概率为 P, 假定开始时 A 有 i 元, B 有 AT - i 元，问 A 最后能贏得 
所有钱的概率是多大. 








Pi+Qi = i 

上式表明， A 和 B 中某一人将贏得所有钱的概率为1;或者说， A 的钱总在1与 
N -1 之间而赌博无休止地进行下去的概率为 0( 读者必须注意,这场赌博有三个可 
能结果,而不是两个,即或者 A 胜，或者 B 胜,或者谁也不胜.但我们刚才证明了最 
后一种结果的概率为 0.) 

现在给上述结论以数置上的说明.若开始 A 有5元，而 B 有10元，则当 
p = 1/2时， A 得胜的概率为1/3,而当 p = 0.6 时, A 得胜的概率猛增•为 
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赌徒破产问题还有一种特殊情形，称为諳博持螓时间问题 (duration of play). 

这个问通是1657年法国数学家费马向荷兰数学家克里斯第安 • 惠更斯提出的，后 

来被惠更斯解决.惠更斯解决的版本是这样的，设 A 和 B 毎人有12枚硬币，他们 
以抛掷3个骰子的方法赌这 些钱： 若点数为 11( 不管谁掷骰子都可以)，则 A 给 B 
,如果点数为14,则 B 给 A —枚硬币.谁先贏得所有硬币谁就获胜.因为 
点数为 14} = 15/216，.由例 4h 可以看出，对 A 而言， 
= 12/45,. = 12,iV = 24 情形下的赌徒破产问题（例 4k). 一般的赌徒破产 

问题由数学家詹姆士 • 伯努利解决，其结果发表于1713年（他去世后的第8年). 

作为赌徒破产问题的应用，讨论如下的药品试脸 问题. 设为治疗某种疾病，正 
在研制两种新药.新药 i 的治愈丰 为巧, i = 1,2. 然而， fi 为未 知的. 我们希望知道 
巧 > 巧或巧 > 只.试验是成对地、有序地进 行的. 对于各对病人,其中一人施以 
药1,另一人用药 2. 当其中一 
1：时，试验就停止.令 


-枚硬币，如 
点敫为11 
这正是 p=i 




第 j 对病人中用第1种药品者治愈了他的疾病 
其他 




第 j 对病人中用第2种药品者治愈了他的疾病 
I。其他 

设 M 是事先确定的正整数，试验在第 W 次时停止，其中 7V 是使下列两个等式中 
某一个第一次成立时的那个„ 的值： 

X 1 +-+ X n -( y 1 + --- + Y n ) = M 


X!+ -+x B -(yi + --+y„) = -M 

若 n 使第一个等式成立，就下 结论巧 > 巧，若 n 使第二个等式成立，则下结论 










讨论 如下： 假设每条边独立等可能地染成红色或蓝色.也即，每条边为红色的 
概率为 1/2. 将这⑵个 jfe 个顶点所组成的子集编号,定义亊件 Bi，i = 1，…，⑵ 


这样，由于 A 顶点集合的@ i 
颜色相同的概率为 


司} 

r 色或蓝色 


释啗广 /2 

由 

p(U^) < Y , p ( Bk ) (布尔不等式） 

我们可得“至少存在一个 fc 点集合,其所有边颜色相同”的概率为 p(u 4 ^), 满足 

,)/2_1 < 1,或者,等价于 ® 则 © 个 * 点 

' k 点集合,其所有 

fc 点集合，其 
I对任意灸了 


因此, 如果⑽ 

集合里，“至少存在一个 * 点集合,其所有的边颜色都相同”的概率小于1 
在前述 n 和 fc 的条件下，“没有一个 ifc 点集合,其所有边颜色相同”的概率为正数， 


这意味着】 
同. 

注释 


至少存在一种染色方法,使得龙 


fc 顶点集合，其所有的边染色不全相 


(a) 上面的论证列出了关于 r»，fc 的条件,在这样条件之下，存在一种涂 
颜色的方法即可满足所要求的性质.但它并没有告诉我们如何涂颜色，使得所涂的 
颜色满足所要求的性质.（当然,可以随机地涂色,然后检査所涂的颜色是否满足所 
要求的性质,若不成，再重复一次,直到成功为止 .） 

(b) 将概率引进那些纯粹是确定问题的方法称为概率化方法 (probabilistic 
method®). 此方法的其他例子在理论习题24以及第7章的例 2t 和例 2u 中给出. 


条件概率和独立性 


命題 5.1 ⑷0<尸(網<1; (b) P ( S \ F ) = 1; (c) 若 jB“i = l，2, … 
为互不相容事件列，则 



证明： 为了证明⑷，我们只要证明 （K P ( EF )/ P ( F ) ^ 1即可.不等式左边是 
显然的，而不等式的右边成立是因为 EFCF 成立意味着 P ( EF ) < (b) 成 
立是因为 

(c) 成立是因为 

» p (( u «-) f ) KuM ,~、~ 

Ky 严 )=^^=^r - 因为严 



= i=! m-=S P<a|F) 

其中倒数第二个等式成立是因为 EiEj = 0,这意味着 EiFEjF = 0_ 口 

如果我们定义 Q(E) = P{E\F), 根据命题 5.1, Q(E) 可认为是关于 S 中事件 
的概率函数.因此,前面证明的关于概率的命题它都 满足. 举例说,我们有 
Q{E X U 场）= Q (£? i ) + QiEa) - Q(E l E 2 ) 

或者等价地， 

P{EiU E2\F) = P(Ei\F) + P(E2\F) - 啊秘 ) 

而且，如果我们再定义条件概率如下： Q(EilE2) = Q (氏 场) / Q (氏)，根 
据 （3.1) 式可得 

Q(Er) = QmE7)Q(E2) + Q (玖 I 坞) Q (琛） （5.1) 


由于 



P(Ei|F) = P(Et\E2F)P(E2\F) + P ( 玢闲 F>i > (均 |F) 

























一 gim-l + p«-l — (fn-lpn-i 

由于 (5.7) 和 （5.8) 之和为1，可知长度为《的成功游程和长度为 m 的失败游程终 
有一个会出现 • 

举例,掷一枚均匀的硬币,长度为2的正面游程先于长度为3的反面游程的概 
率为7/10,长度为2的正面游程先于长度为 4 的反面游程的概率为 5/6. _ 

例 5d 再次研究配对问题（第 2 章例㈣,这次运用条件概率解答问攀 
例 5d 在一次聚会上, n 个人摘下他们的帽子，然后把这些帽子混合在一起， 
每人再随机选择 一顶. 如某个人选中了他自己的帽子，我们就说出现了一个配对. 
以下事件概率是多大？ 

(a) 没有 R 对. （b) 恰有 * 个齡 

解 :⑷令 £表示“没有配对”这一亊件,它显然与《有关，因此可记/»„ = P { E ). 
以第一个人是否选中自己的帽子 （ 分别记为 M 和 M e ) 为条件，有 
Pn = P ( E ) = P { E \ M ) P ( M ) + P ( E \ M C ) P ( M C ) 

墨知 P (别 M) = 0, 因此 

P n = P(E|Af c )^i (5.9) 

P ( E \ M C ) 是在己知 n - 1 个人中有一个特殊的人(此人的帽子己被第一人选走)必 
定选不到自 己帽 子的条件下,这 n- 1个人选 n - 1顶帽子没有配对的概率.此处有 
两种互不相容的选取 方式： 该特殊的人没有选中第一人的帽子且其余的人中也没 
有 S 对; 该特殊的人选中了第一人的帽子,且其余的人中也没有 S 对.前者的概率 
正是 Pm (此时可把该特殊的人理解成第一人),而后者的概率为 [l/(n-l)]P n -2. 
这样，我们得到 


P { E \ M C ) = P n -l + — Pn -2 




(b) 为了计算正好有 fc 个配对的概率,先考虑固定的某 fc 个人,只有他们选中 
自己的帽子的概率为 

- - ' 

n n -1 n - ( fc -1) n ! 

其中 P n - k 是已知 fc 个人选中自己的帽子,其余《 - ife 个人在他们自 己的幅 子中选 
取而没有配对的条件概率，再因这*个人有 ® 种选法,故正好有 *= 个配对的概 
率为 

^r = 

概率论的另一个重要概念是事件的条件独 立性. 我们称亊件玢和设对于给 
定的亊件尸是条件》立的 （conditionally independent), 如果已知 F 发生的条件下， 
E x 发生的概率不因均是否发生而 改变. 确切地说，称玢与玖在给定 F 发生之 
下是条件独立的，如果 

= P { Et \ F ) (5.11) 

或等价地， 

PiE^F) = P ( Ei | F ) P (^| f ') (5.12) 

条件独立的概念容易推广到两个以上事件的情形，我们把它留作习题. 

读者会发现，条件独立性的概念在例 5a 中己经用 过了. 在那里，我们 假定： 
在己知保险客户是否为易出事故的人的情况下，“他在第 i 年, i = 1,2,…，出一次 
事故”这些事件是条件独立的.下一个例題，有时也称为拉普拉斯继承准则，进— 
条件独立的概念. 

5e (拉普拉斯继承准则）盒中有 fc + 1 枚不均勻的硬币，抛掷第 i 枚硬币时， 
其正面朝上的概率为 i/ifc，i = 0,l， …， fc. 从盒子中随机取出一枚硬币，并重复地抛 
掷，若前 n 次抛掷结果都为正面朝上，问第 n+1 次结果仍为正面朝上的概率是 
多大？ 

解：令 C* 表示“开始取出的是第 i 枚硬币”这一事件, i = 0,1，…， fc, 凡表示 
“前 n 次结果都为正面朝上”， H 表示“第 + 1次抛掷出现正面朝 上”. 所求概率 




P ( H \ F n ) = 53P(ff|F„C i )P(C i |F n ) 


现已知取出的是第 i 枚硬币，假设各次抛掷的结果是条件独立的，每次出现正面朝 
上的概率为 i/fc, 于是有 

P ( H \ F n Ci ) = P ( H \ Ci ) = ^ 


P ( CjF n ) 

= "wo" 


二 P ( F n \ Ci ) P { Ci ) EO/fc) n [l/(* + l)] 


因此有 



但当 fc 充分大时,可利用积分近似 

洁①〜 jC * 〜 = 占 

故对很大的 * 有 

相 


例 5f (序贯地补充信息）假设有 n 个互不相容且完全的假设,其初始概率 [W 
时也称为先轮 (prior) 板率1为 P { Hi ), 1：^, P ( Hi ) = 1. 现在假设得到 信息： 亊件五 
发生,那么坧成立的条件概率为[有时称为私的后敦 (posterior) 概率]: 


P{Hi\E ) = 


P ( E \ Hi ) P { Hi ) 
[^剛 剛） 


(5.13) 


pmEM = 


[;順 綱剛） 


然而,或许有人疑惑，可否这样计算 PmEiE ^ y . 利用 （5.13) 式的右边,将 E 替换 
为氏 ，将 P ( Hi ) 替换为 P { Hi \ E x ),3 = 1,… ， n . 也即，将 PmEx^j > 1作为先 
验概率，将均作为新近得到的信息,然后利用 （5.13) 式来计算后验概率？ 

解： 上述算法是合理的，条 件是： 对每一个 j = l , -, n , 在给定•下，亊件 
玢和均 是条件独 立的. 如果这样,那么 


PiEtEilHi) = P^EhlH^P^Hj) 


这样， 


PiHi ^ Eh ) =- 


P(Ea|H < )P(£?x|g < )P(g«) PjEhlH^PjEiHj) 

PiEM PiExEi ) 

P(^ t |g < )P(g < |£i)P(gi) PmHi)P{Hj\Ei) 

- p(e^) - wl) 

其中 Q ( l ,2) = P ( ExE 2) IP { E x \ 由于上式对所有 i 都成立,我们将上式对 i 求和 
得到 


g(i ， 2) = fjp(^iff,)P(ff,|£； 1 ) 
PmEiE ^) 


p ^ mpmEx ) 

举例来说，假设有两枚硬币，选枚抛掷 ，令执 表示选中了第 i 枚硬币， 
i = l ,2, 并假设选中第 i 枚硬币后抛掷，正面朝上的概率为 P< ，i = l ，2 •令马表示 
“对于选中的硬币的第:/次的抛掷结果”.抛掷以后 ，即玢 发生以后，只需将 pm 
进行修正，得到 p ( ffii ^ i ). 若以后还有新的试验结果氏,此时只需将 p (别 玢） 进 

行修正，得到 P ( H <| 玖场)，将 PiHAExEi ) 重新写成 P { Hi ), 即忘掉它的历史.每次 









-个有用的等式 P { E ) = P { E \ F ) P ( F ) + PiE ^ PiF -) 可用来通过以 F 是否 


发生为条件计算 P ( E ). 

P ( H )/ P { H C ) 称为事件的优势.等式 



说明了当得到一个新的证据 E 后， H 的优势等于原来的优势值乘以当成立时 
新证据发生的概率与 " 不成立时新证据发生的概率的比值. 

令巧，< = l ,..-, n 为互不相容亊件列，且它们的并为整个样本空间，等式 



称为贝叶斯公式.如果亊件 = 为一组假设，那么贝叶斯公式说明了如 

何计算当新证据成立时,这些假设成立的条件概率. 

如果 P(JSF) = P ( E ) P ( F ), 那么我们称亊件和 F 是独立的.该等式等价于 
P ( E \ F ) = P ( E)m P ( F \ E ) = P(F). 也即，如果知道其中之一的发生并不影响另一 
个的发生的概率,那么£和 F 独立. 

事件玢，…，称为独立的，如果对任何子集仏，…，队，有 
P ( E il .- E ir ) = P ( E il )- P ( E ir ) 

对于任一给定事件 F, P(f ； |F) 可以认为是样本空间的亊件 S 的概率函数. 


习 题 





7 月份参加第二场.而若又通过了，则参加8月份的第 三场. 如果在某场考试失败了，则 
不允许参加剩下的考试.她通过首场考试的概率为 0.9; 如果她通过了首场考试，则通过第 
二场考试的条件概率为 0.8; 如果通过了前两场，那么通过第三场的条件概率为 0.7. 

(a) 她通过全部三场考试的概率是多大？ 

(b) 己知她没有通过全部三场考试的条件下，她在第二场考试失败的条件槪率是多大？ 




































个色盲的人,他是男性的概率是多大？如果男性的数量是女性的两倍呢？ 

27. —公司所有员工都开车去上班.公司希望估计出每个车内乘员的平均数.下面提供的方法 
中，哪一个是正磽的？并给出解释 • 

⑷随机地找 n 个人，问他们所乘的车内有多少人，求出其平 均值； 

(b) 随机地选 n 辆车，数一数车内的人数，然后求平均值. 




































































































































来化简答案.另外一个解决此问雇的方法是，注意 麴一共 进行了 2" - 1场比赛. 
(d) 解释为什么总共有2” - 1场比赛 • 

给这些比赛进 filS 号，且令氏表示 -A 和 B 在第 i 场比赛中碰面”， i=l, … ，2" 
⑷ P(B*) 是多少？ （f) 利用⑷计算 P ( E ). 


二# , 4 : |3 


. 若前两次投掷结果都， 

、- ) 如果头两次投掷都为 g 
. 坛子里有12个球，其中 4 个白球,三个选手 A,B,C 依次从坛中取球, A 最先，然后 B, 然 
后 C, 再是 A, 依次进行下去■第一个取出白球的人获胜 • 求每个选手获胜的概率，如果 
(a) 每个球取出后再 放回； 0>)取出的球不放回. 

.当3个选手各自选择自己的坛子时，重做习題84,也即，傾设有3个不同的坛子，每个里 
面有12个球,其中4个白球. 

•令 S 板设 A 和独立，等可能地为 2" 个子集之一（包括空集和5本 














































































(b) 己知电流能从 A 到 B 的条件下，开关3是合上的条件概率. 

17■.在习 JH 67中描述的 fc - n 系统，假定每个元件相互独立且正常工作的概率为1/2,求己 
知系统正常工作的条件下，元件1工作正常的条件概率，当 
(a) Jfe = l，n = 2. (b) k = 2 ,n = Z . 

18. 琼斯先生为了贏得幸运轮中奖，设计了一套如下的赌博 策略： 当他押注时，只有当前面10 
次都出现黑色 ft 宇时才押注在红色数 宇上. 他的理由是连续11次出现黑色的概率非常 
小.你认为他的策略如何？ 

19. A.B.C 三人间时赛一枚後币，掷出正面朝上的橛率分别为 ft, ft, ft, 如果有一个人掷出 
的结果与其他两人不一样，那么就称他为奇异人.如果没有出现奇异人，则继续掷硬币，直 
到出现奇异人，那么 A 被称为奇异人的槪率是多大？ 

20. 假设某次试 Ife 有 n 个结果，结果 i 出现的概率为 = •,n，EtiP< = 1 - 如果观察 



























第 4 章随机变量 

4.1 随机变霣 

进行试验时，相对于试驗的实际结果而言，通常我们更感兴趣有关试验结果的 
某些函数.比如，在掷两枚骰子的游戏中，我们通常更关心两枚骰子的点数之和，而 
不是各枚骰子的具体值.也即，我们或许关心《子点数之和为7,而不关心实际结果 
究竞是 （1,6) 或(2,5)，或(3,4)，或(4,3)，或(5,2),或 (6,1). 同样，在搏若干枚硬币时， 
我们或许关心正面朝上的总数,而不关心实际结果有关正面朝上或反面朝上的排列 
情况.由上面的例子可以看出，这些感兴趣的量是试验结果的实值函数，我们称之 
为随机变量 (random variable). 随机变 ft 是定义在样本空间上试验结果的实值函数. 

因为随机变量的取值由试验结果决定，因此我们也将随机 变量的 可能取值賦予 
概率. 

例 la 考虑掷3枚均匀硬币的试验.令 y 表示正面朝上出现的枚数，那么 y 
就是一个随机变量,它的取值为0,1,2,3之一，各自概率为 

P{r = 0} = P{(T,T,T)} = | 

P{y=l} = P{(T,T,H),(T,H,T),(H,T > T)} = | 

P{Y = 2> = P{(T,H,H),(H,T,H),(H, H,T)} = | 

P{y = 3} = P{(H,H.H)} = | 

此处 H 表示正面朝上, T 表示正面朝下.因为 r 的取值必是0到3之一，故有 


l = P ([ J{Y = i })= j 2 P{Y = i } 












=+ (1 - P)n_1 = 1 _ G - P) B_1 + (1 -P) n - 1 = 1 _ 

例 Id 某个坛子里有 3 个白球、 3 个红球和5个黑球.现从中随机无放回地 
抽取3个球.假设进行打赌,抽出每个白球可以贏得1元，每个红球则输掉1元 • 
: 表示贏得的总钱数,那么X就是一个取值为0,±1，±2, 土3之一的随机变量， 


令X 表: 

各取值相 


© + (?)©© 


(?)© + ©(D , 9 

P{X^l} = P{X = -l} -——=165 

©G ) 3 15 

P { X = 2} = P{X = -2} = —- = W5 
\3J 
Q 

P{X = 3} = P{X = -3}~ — = ^ 


这些概率是怎样算出来的呢？以 = 0} 的计算为例，由于三个球是随机地抽 
取，因此这种球的组合都是等可 能的； 而{叉= 0} 可以分解为两种情况，一 
种是抽出来的球全为黑球，这种抽取方法共有种，另一种情况是红、白、黑各 
抽出一个球,这种抽取方式有种，这样,我们就得到尸{尤= 0} 的计算 
公式.对于 MX = i} 的其他几个公式,论证是类 似的. 下面的公式驗证了我们的计 
算 结果： 

因此, 4们贏钱的概率为 

自 p{x=i}= ^ = !. ■ 

例 le 设想有 w 种不同的优惠券，某人收集优惠券，每次收集一张， 

惠券都以相同的可能性被收 集到. 又假定各次收集是相互独 立的. 假设某人想收集— 
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套 N 种优惠券,他的办法是一张 一张地 收集，直到收集成一套为止（此时 JV 种优惠 
券每种至少一张).他所收集到的优惠券的总张数是一个随机变量，记为： T . 与其直接 
计算尸 (T = n ), 不如先考虑 r 大于 n 的 概率. 为此，先固定《，并且定义事件 Ar,A 2 , 
■■■, A n 如下：木表示“前 n 张优惠券里没有第 j 种优惠券” C 7 = 1， ... ，汉)•因此 

p{t>«}=p( Q 冯 )=- E + … 

+ (- l )* +1 E … O ". 

+ (- 1 广 1 />(先也"南> 


由于每张优惠券不厲于第 j 种的概率为 (N-l)/N , 利用各次收集相互独立的假设 


可得 


尸 ⑷ )-(y 


而当前 n 张优惠券里,既没 有第力 种优惠券，也没有第 j 2 种优惠券时, A jt A j3 发生， 
因此 P (^^) = (^) n 用类似的推理，可得 P(A Jl A h - -A jk ) = (^)", 


这样,对于 n > 0,我们有 


+(-d=g ⑺ ( 讲 - 俨 1 ㈣ 


T 等于71的概率可结合下式得到 

P { T > n - l } = P{r = n } + P { T > n } 

或等价地， 

P{T = n } = P{T > n - 1} - P{T > n} 

另外一个值得感兴趣的随机变量是前 n 张优惠券里，优惠券的不同种类数，不 
妨记为为了计算 P{D n = k}, 我们首先把注意力放在一组特定的 fc 种优惠券， 
然后计算我们收集的前《张优惠券是由这特定的 fc 种优惠券组成的 概率. 而这个 
事件说明所收集到的前 n 张优惠券应当满足 

A: 每张都是这 fc 种优惠券之- 

B: 这 fc 种优惠券的任一种都在 n 张优惠券中出现 

这样,我们得到 

巧收集到的 n 张优惠券由特定的*种优惠券组成 } = P(AB) = P{A)P(B\A). 
由于收集的每张优惠券属于这 * 种之一的概率为*/災，因此事件 A 的概率为 
(k/Nr. 而且，在给定每张优惠券是所考虑的 fc 种之一的条件下，很容易看出在 
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p ( a ) = P{X = a } 

分布列 p ⑷在最多在可数个 a 上取正值,也即，如果 X 的可能值为 Xl ， X2 , • • • ,那 
么 

p(xi) > 0 * = 1 , 2 , 

p (*) = 0 所有其他 x 

由于 X 必定取值于 {xi,x 2 ,•••}, 这样有 

= 1 

用较直观的图形方式，将 P ( Xi ) m. y 轴上 ，将為 
标在： c 轴上.例如，设 X 的分布 列为： 

P (0) = J P ( l ) = | P (2) = j 

可表示为图 4.1. 类似地，在掷两枚均匀骰子的试脸中， 

令 X 为两枚般子的点数之和，则 X 的分布列可用图 
4.2 表示. 

例 2 a 设随机变童; f 的分布 列为： 吣)=<^/<丨，< = 0,1，2...，其中人为一正 
数.求⑷ P { X =0>; ( b ) P{X>2}. 

解：因为我们有 

c S^ =i 

又因为浐 = ESo !，因此 ce * = 1,也即 ， C = 这样 

( a ) P{X = 0}=e~ x \°/0l = e- A 


UL_ 

0 12 ^ 



图 4.2 分布列 2 
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例 4 b 某种季节性销售的产品，如果每卖出一件商品，可获得纯利润6元，如 
果季节末仍未卖出，则每件商品将损失/元.设某百货商店在某个季节的销售量 
(即卖出商品的件数）为一随机变量,其分布列为 p ( i),i > 0. 现在商店决定销售旺 
季前要囤货，问它要囤多少件才能使得期望利润最大化. 


J WC - (S - 


s , 记利润为 
a 果 


P(a), P(s ) 可表示为 


因此，期望利润为 

聊⑷]= E[ w -(*- 賴 *) +矣咖 w 

= (6 + ^)^ip(t) -^^p(*) + «fc[l -gp(<)] 

= + - ( 6 + 0* fpW + sb = ab + {b + () ^(t - a)p{i) 


为了得到最佳的 s 值，我们来看看当 s 增加一个单位时,利润有什么变化.利用上 
述公式 得到： 


£[P(« + 1)1 = 6(* + 1) + (6 + 0 — 1)P(<) 



两式相减得 • 

£[ P(a + l )]- B [ P («)] = 6 — (6 + 幻 ^ p ( t ) 

因此,如果下列条件满足,那么囤货数童为 s + 1得到的期望利润会大于囤货数量 
为 s 的 情形： ， . 

(4.1) 

由于公式 （4.1) 的左边随着 s 的^加而增加,而右边为一常数，因此不等式对所有 
的^总是成立的，其中 〆 为满足 （4.1) 式的最大值.因为 

E[P{0)] < < £lP(s*)J < E[P{s m + l)]> B[P(a* + 2)1 > • • • 

这样，囤货数童达到 s * +1 时将会使得利润最 大化. ■ 

例 4 c 假设你要在两种行动方案之中选择其一,采取任一种方案都将导致下列 
n 个结果之一，记为 G ，…， C „. 假设采取了第一种方案,那么结果 G 发生的概率为 






赖于 U 的取值,如果 U = 1,那么试验取得确定结果由于 C 为最好的结果，你肯 
定认为选择做试验优于选择获得 另一 方面，如果 u = 0,那么试验结果就是最 
坏的结果 C , 因此,这种情形下，很明显你会认为选择结果 G 优于选择做随机试验 • 
现在，令 U 从1减小到0,那么会很合理地认为存在一点,在这点上,你认为选择做 
试验和选择获得 G 是一样的•也即，在严格的这点上,这两个选择是没差别的•那 
么令这个点所对应的概率《 为结果 G 的值. 換句话说,你选择或选择做试验， 
以概率 U 获得结果 C , 以概率1 - U 获得结果 c , 使得这两者没差别的概率值就是 
Ci 的值.我们称这个概率值为结果 G 的故用 (utiUty), 记为«(^)- 


为了确定哪个行动是最优的，我们要给每个行动 估值. 考虑第一个行动方案， 
其结果^发生的概率为 Pi , < = 1,2, •••,«, 我们可以认为这个行动方案的结果由 
-个两步试验决定,第-步，随机选择 h 其相应概率为 Pi , 如果选择了 i , 那 



其中获得 C 的概率为 E ?= iPi «( Ci ). 类似地，选择第二个行动方案的结果等价于 
进行试验，获得结果 C 或者 C , 其中获得 c 的概率为 EUqMCi ). 既然 c ■优 
于 C ， 这样第一个 试轮优 于第二个试验，如果 ZUPMCi ) > IXxQMCi ), 换句话 
说，行动方案可以通过其结果的效用的期望值进行 选择. 使得期望效用取得最大值 
的行动方案是最优的. ■ 

命雇 4.1 的一个简单推论就是以下推论 4 . 1 . _ 

| 推论 4.1 若 a 和 & 是常数，則 E[aX + fe ] = aE [ X ] + b . _ ] 

证明： 

E[aX + 6]= J3(a® + 6)p(x) = o ^xp(x)+6 = aE [ X ] + b □ 

x ： p(*)>o * ： P(*)>« 
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解： 在例 3a 中己经得到 E[X\ = 7/2,利用命厘 4.1, 得 
E[X] 2 = l 2 xi + 2 a xi+3 3 xi+4 2 xi+5 2 xi+6 a x| = |x91 

因此， 

V眷 ■ 

对于任意常数 a 和6,下面的等式是十分有 用的： 

Var(oX + 6) = a 2 Var(X) 

为了证明上式,令 m = E[X), 注意到推论 4.1 的结果 E[aX + b) = an + b, 因此有 
Var(oX + b) = £[(aX + 6-o/i-6) a ] = E[a\X - /i) a ] = a 3 E[(X - /i) a ] = o a Var(X) 

注釋⑷在力学中，类比于均值是质量分布的重心，方差代表了惯性矩. 

(b) Var(X) 的平方根称为X的标准 l(Standard deviation), 记为 SD(X), 也即 
SD(X) = y/Vu(X). 

离散型随机变量通常根据其分布列进行分类,下面的几节将要介绍几种常见的 
类型 • 


4.6 伯努利随机变置和二项随机变置 


考虑一个试验,其结果分为两类,或者成功,或者失败.如果我们令 


X = 


fl 当试驗结果为成功时 
|0当试验结果为失畋时 


那么 X 的分布列 如下： 


p(0) = P{X = 0} = l-p p(l) = P{X = l} = p 


(6.1) 


其中仍0 < p < 1就是每次试验成功的概率 • 

—个随机变量 X 称为伯努利随机变量(起源于瑞士数学家詹姆士 ■ 伯努利)，如 
果其分布列由 ( 6 . 1 ) 式给出,其中 p e ( o , i ). 

现在设进行 n 次独立重复试验，每次试验成功的概率为 P , 失败的概率为 1-P- 
若以 A ■表示 n 次试验中成功的次数，那么 X 称为参数为 （ n ， p ) 的二項随机变量 
( binomial ). 因此，伯努利随机变暈也称为参数为 （1, P ) 的二项随机变量. 

参数为 ( n , p ) 二项随机变量的分布列为 

p ( i ) = (")?*(! - p) n_i * = 0, l,--,n (6.2) 











解：令 X 表示一食中有缺陷的蟝钉的数量， 那么X 就是一个服从二项分布的 
随机变量，参数为（10,0.01)，因此,任一箱将要退回的概率为 

1 - P{X = 0} - P{X = 1} = 1 - O - OlAO - M ) 10 - (^( O - Ol ) * 1 * * * * * ^^) 9 « 0.004 

因此，将要有0.4%的盒子被退回. ■ 

例 6 c 以下介绍的赌博方法称为“运气轮”，在世界各地的狂欢节或赌场十分 

流行.赌徒押注于1到6之间某一个数，然后庄家掷3枚骰子，如果赌徒押的数出 

现 M = 1,2,3次，那么他将贏得 i 单位.反之，如果赌徒押的数没出现，他将损失1 

单位.问这个赌博对赌徒是否公平？（实际上，这个赌博经常是转一个轮子，当轮子 
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而若被告有罪，正确判决的概率为 

因此，如果已知被告的确有罪的概率为 a , 那么以他是不是有罪为条件，我们得到 
»审团作出正确判决的概率为 

+ (l-a)^ 0(1 - 0) 12 ― ■ 

例 6 f —个通讯系统由 n 个元件组成，各个元件是否工作正常是相互独立的， 
并且各个元件正常工作的概率均为 P . 若在系统中，至少有一半的元件工作正常，那 
么整个系统就有效 • 

( a ) p 取何值时, 5个元件的系统比3个元件的系统更有可能有效？ 

( b ) —般来说,什么时候 2 fc + 1个元件的系统比 2 fc - 1个元件的系统更有效？ 
解：⑷ 正常工作的元件数是一个服从参数为 ( n , p ) 的二项分布的随机 变氪那 

么5个元件的系统有效的概率为 

gy ( i - p ) 2 +( j ) p 4 ( i - p )+ p * 

而三个元件的系统有效的概率为 

©^( i - pj + p 3 

因此，以下条件成立时，5个元件的系统比3个元件的系统更 有效： 

10 p 3 ( l - p ) 3 + 5p\l - p )+ p 6 >3^( l - p )+ p 3 
化简为 3 (p - l ) a (2 p -1) > 0,即 p > 1/2. 

( b ) 一般来说，当（且仅当 ） p > 1/2时， 2* + 1个元件的系统比 2 fc - 1个元件 
的系统有效.为了证明这点,考虑 2 A + 1元件的系统，令 X 表示“前 2 fc - 1个元件 
中工作正常的元件的数目”，那么 

P 站 +1 (系统有效） =P{X^k + l} + P{X = fc }( l-(l - p ) 2 ) + P{X = k-l}p t 
上式之所以成立是基于事件 “2 A +1 元件的系统有效”可以写成下列三个互不相容 
的事件的并： 


( i ) X^k + 1-, 



( iii ) X = k-1 而且 剩下的 2 个元件都工作正常. 




由于 

P 2 k- 1 ( 工作有效)= P{x >fc} = P{X = k} + P{X ^k + 1} 

可得 

P »+ “ 工作有效)- P2k-l( 工作有效） 

= P{X = k- l}p 2 - (1 - pfP{X = k) 

= Om -p)v - (i -p ) 3 ( 2 W(i-p )*- 1 

= r fc - V ( i - p )^-( i - p )] 因为 eom 

>0-»p> 1/2 ■ 

4 . 0.1 二项 tt 机变•的性质 

现在我们来考察参数为 ( n , p ) 的二项随机变量的性质，先来计算其期望和方差. 
E [ x k \= $0(1 - p )"-* =々⑺办 - p )"— 

利用恒等式 <(")= n (7 lj ). 可以得到 



= np ， pU + l) k - 1 ( n ~ (1 - P) n_1 - J 令X - 1 

= npE[(r + l) fc - 1 l 

其中， y 是一个参数为 （ n - l ， p ) 的二项随机 变量. 在上面的公式中，令 A : = 1,就 
可以得到 E [ X ] = np , 也即，如果试驗每次成功的概率为 p ，那么 n 次独立重复试 
验的成功总次数的期望值等于在前面的公式中令 fc = 2,再利用上面得到的 
关于二项随机变量的期望公式，可得 E [ X ^] = npE\Y + 1]= np[(n - l)p + 1]，因为 
E [ X ] = np , 所以可得 

Var ( X ) = E [ X 2 ]- (£；[ X ]) 2 = np [( n - l)p + 1】 一( np ) 2 = np(l - p ) 

总结以上论述,可得如下结论. 

如果 X 是一个参数为 ( n , p ) 的二项随机变■:，那么 
E [ X ) = np Var ( X ) = np ( l - p ) 


接下来的命题表明，二项分布的分布列一开始是递增,后来逐渐递减. 













时候一个选民的选票起关键作用的概率为： 

p < 公民的选果起关键作用>= (?) ©*©*= ^ 
现在我们利用斯特林公式’ 


g 起关键作用卜=去 
,你将影响到 nc 张选举团栗,这样，在一个人 t 


当你的选栗起关键作用时,你将影响到 nc 张选举团栗,这样，在一个人口为 n 的州 
里的选民，平均起来影响到多少张选举团栗呢？我们用平均权力这个指标. 

平均权力= nc • />{ 你的一栗是关键的 } + 0 • />{ 你的一果不起关键作用} 


4.6.2 计算二项分布函数 

设 X 是一个参数为 ( n , p ) 的二项随机变量,计算分布函数 

= 亡⑵ P*(l-P) n -* * = 0,l, -,n 

的方法是利用在证明命题 6.1 得到的如下= jfc + 1} 和 P{X = ife } 之间的关 
系： n _*. 

P{X = k + l} = = fc} (6.3) 

例 6h 令久 为一参数为 n = 6，p = 0.4 的二项随机变置•从 P{X = 0} = 
0.6 e = 0.0467 开始，利用递推公式 (6.3) 可得 
P{X = 0} = 0.6® « 0.0467 P{X = 1> = g x ®P{X = 0} w 0.1866 

P{X = 2} = I X ~P{X = 1} « 0.3110 P{X = 3} = I x |p{X = 2} « 0.2765 
P{X = 4} = I x ^P{X = 3}« 0.1382 P{X = 5} = ^ x ^P{X = 4} w 0.0369 
P{X = 6} = ^ x ip{X = 5} w 0.0041 ■ 

很早就有人写了一个利用递推公式 (6.3) 计算二项随机变量的分布函数的程序. 
为了计算 P{X<i} 必须先计算 P{X = 0} 9 , 然后再利用递推公式计算 P{X = l) 
①原书之义是先计 ff P[X = *}, 再计算 P[X = i - 1} 实际应先计算 P[X = 0}, 再计算 

p[x = 1} m . ―译者注 



运行它时，直接输入二】 


1A.3S 平 V)- o {IIio -*f；, natfc 丁 j .i 口 

努利的著作《推测术> . 在书中,伯努利指出了如果这样的试骚次数足够大，那么成 

功次数所占的比例以概率1接近 P . 

雅克 • 伯努利是这个最著名的数学家庭的第一代.在后来的三代里，一共有8 
到12个伯努利，在概率论、统计学和数学上作出了杰出的基础性 贡献. 知道其具 
体数目比较困难，一方面是有好几人的名字相同（比如，雅克的兄弟让有两个儿子 
分别叫雅克和让)，另一方面是有几个伯努利在不同的地方有不同的 名字. 比如，我 
们刚说的雅克（有时也写成 Jaques ) 有时叫雅可布（也写成 Jacob ) 或詹姆 士伯努 
利.但不管如何，他们的成果和影响都是非 凡的. 正如巴赫家族之于音乐，伯努利 
家族在数学界是非常有名的家族！ 

例 6 i 设 X 是一个服从参败为 n = 100 ，p = 0.75 的二项随 机变量 ，求 P{X = 
70} 和 P{X < 70}. 

解 ：如图 4.6 所示 • 



图 4.6 统计软件计算檷率 


4.7 泊松随机变置 


-个取值为0，] 








A = np , 这样 

P{X = <}= (n- n O!i! P<(1 " P)n_，= (n-OUI^y 0 ~ 
n ( n - l )."( n -< + l ) Y ( l-W 
= ^ iT (1 - x/ n y 

由于对充分大的 n 和适当的 A , 有 



因此，有 A< 

P{X = *>«e- A ^- 

也就是说，独立重复进行 n 次试验，每次成&率为 p , 当《充分大，而 p 足够 
小，使得 np 保持适当的话，那么成功的次数近似服从参数为 X = np 的泊松分布， 
这个 A 值（以后将要证明这就是成功次数的期望值）通常凭经验确定. 

以下例子中的随机变量通常都服从泊松分布（也即满足公式 （7.1)): 

1. —本书里一页或若干页中的印刷 错误； 

2. 某地区居民活到100岁的 人数； 

3. —天中拨错电话号码的 总数； 

4. —家便利店里每天卖出狗粮饼千的 盒数； 

5. 某一天进入某邮局的顾 客败； 

0. 一年中联邦司法系统中空缺位 置数； 

7. 某放射性材料在一定时期内放射出来的 a - 粒子数. 

还有其他大量的随机变量，都因为相同的原因近似服从泊松分布，也即，因为 
>分布与二项分布很 近似. 例如,我们认为某一页上任一字母出现印 r 
,是一个很小的数，因此，这一页上总的印刷错误近似服从参数为入 
►布，其中 n 是该页上的字 母数. 类似地，我们还认为某个地区某人 
J 概率很小；同样，进入某家商店的顾客购买一袋狗粮的概率也可以认为是很小 


I 等等. 








解： 所求概率为 ( f ) X 0_ l o X 0.9 10 + (^) x 0.1 1 x 0.9 9 = 0.7361, 而利用泊 
松分布近似可得该概率值为 e -'+ e - 1 « 0.7358. ■ 

例 7 c 考虑这样一个试轮 ：记录 1克放射性物质在1秒内放出的《粒子数 • 
如果从过去的经验得知，这个数目的平均值为 3.2, 问放出的 a 粒子数不超过 2 的 
概率的较好的近似值是多少？ 

解： 设想这1克放射性物质由 n 个原子组成 （ n 相当大),每个原子在所考虑 
的1秒内哄变并放出一个 a 粒子的概率为 3.2/ n , 于是我们可看到,放射出的 a 粒 
子数近似服从参数为 A = 3_2的泊松 分布. 因此,所求的概率为 

P{X <2} = e~ 3 a + 3.2e_ 3 2 + ^e~ 3 a « 0.3799 _ 

在计算参数为 A 的泊松随机变量的期望和方差之前，回頋它近似于参数为 n 
和 p (其中 n 很大, p 很小, A = r»p) 的二项随机变量,而这个二项随机 变量的 期望值 
为 np = A , 方差为 np(l — p ) = A (1 — p ) « A (因为 p 很 小). 这样，看起来好像泊松 
随机变量的期望和方差都等于其参数 A . 下面我们来证明这 —点. 

= 哲令 

= A 因为 g 务以 

因此,泊松随机变量 X 的期望等于其参数 A ， 为了计算其方差，先计算 E [ X ^\. 



其中，最后一个等式成立是因为第一项就是参数为 A 的泊松随机变量的期望，而第 
二项 k 是该随机变纛取各个值的概率之和 • 因此，由于我们已经得到五[尤]= A ，可 
得 Var(X) = E[X^\- (B[X]) 2 = A .即 






其中 n 个人随机地从他们的 帽子中 取一顶帽子，考虑恰好拿着自己的帽子的人数. 
可认为这 n 个选择就是 n 次试验,其中第 i 次成功就是第 i 个人拿到了自己的帽 
子， i = l , …， n . 定义亊件岛 , i = l , •••,»» 如下： 


Ei = {第彳次试验成功 } 

很容易看出 P { Ei } = l / n . RPiE ^ Ej ] = l /( n - l ), j ^ i , 那么很合理地认为成功 
的次数近似服从参数为 nxl / n=l 的泊松分布，亊实上，这一点已经在第2章例 
5 m 得到了证明. 

现在给出第二种关于试验为弱相依情形下泊松近似的阐述，考虑第2章例 5 i . 
在该例中，假设有 n 个人，每个人在一年365天内任一天过生日的概率都相同，现 
在的问题是计算 n 个人生日各不相同的概率.我们曾用组合学知识计算了该概率， 
并计算出当 n = 23时该概率小于 1/2. 

我们可以利用泊松近似来给出上述概率的近似值.设想我们进行一系列试验， 
对于不同的 i 和 j (两个人),称试验 i , j 为成功，如果 i 和 j 生日相同.如果我们令 
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我们对个 i ， j ， fc ， 1 < i < j < fc < n 做一次试數,试验称为成功的，如果 i , j ， fc 
这3人生日相同.如上所述,我们知道成功数近似为泊松随机变量，参数为 
© P { i，W 这3人生日删 } = © (^ 2 = 


P { 没有3人生日相同} a exp { ~" ( " 7 ~^~ 2) } 

该概率值小于 1/2,若 ri 满足 r»(n - l)(n - 2) ^ 799 350 In 2 « 554 067.1, 等价于 
n ^84, 因此，当人数超过84时，至少有3人生日相同的概率超过 1/2. 

因此要使亊件发生的数量近似服从泊松分布，并没有必要要求各个亊件发生的 
概率相同，只要这些概率都较小即可.下面就是泊松范例. 

泊松范例考虑 n 个事件,每个事件发生的概率为 Pi,i = l ,- - , n . 如果所有 
Pi 都很小，且试验或者独立，或者至多弱相依，那么亊件发生次数近似服从参数为 
的泊松分布 • 

接下的例子不但应用了泊松范例，而且阐述了前面介绍的一系列技巧 • 

例 7 d (最大游程的长度）抛掷硬币 n 次,假定各次抛掷是相互独立的，每次抛 
掷正面朝上的概率为 P . 出现连续 fc 次正面朝上的概率有多大？ 

解： 首先应用泊松范例逼近这个 概率. 对于 *• = 1，…， n - fc +1, 令抝表 示“第 
iti+li ...j + k -l 次抛梅硬币均为正面朝上”.此时，连续 fc 次正面朝上的概率 
就是至少有一个执发生的 概率. 由于历是“第 M + 1,…， i + *： _ 1次抛掷硬币 
均为正面朝上”， P (風）= p fc .当 P* 很小时，执发生的次数应该近似具有泊松分 
布.但是，这是不对的，因为尽管各 亊件执 发生的概率很小，而某些事件之间的依 
赖性很大，影响了泊松逼近的稍度•在第 1,... ，*：次抛梅硬币的结果都是正面朝上 
的条件下，第2,…， fc + 1次抛掷硬币的结果都是正面朝上的概率等于第 *： + 1次 



n-fc + l ,---, n 次抛掷都是正面朝上”，这样我们得到 


P ( Ei ) = ^(1- p ) i ^ n-k 
P(Sn-fc+l)=P* 

这样，当铲很小时， P ( Ei ) 都是小概率事件，对于氏和马，当它们所涉及的试 
验没有相重的时候, PiEilEj ) = P ( Ei ), 如他们涉及的试验有相重部分， P ( Ei \ Ei ) = 
0. 在这两种情形下,条件概率都可以为是无条 件的. 令 W 表示松发生的次数，汉 
的分布应该近似为泊松分布,其期望为 


不存在 fc 次连续正面朝上的充要条件为 AT = 0.因此 

/>{ 不存在 * 次连续的正面朝上 } = P{N = 0}« exp{-(n- *)^(1 -p)-p fc } 
现在令 L „ 为 “ n 次试验中连续出现正面的最大次数”，亦即为 n 次试验中的 
出现正面的最大游程的 长度. 易知 L „ < A : 的充要条件是试验序列中没有 ft 次连续 
正面朝上的一段.因此,利用上式 

P{L n < fc} w exp{-(n- *0/(1 -p)-p*} 

现在假定硬币是均勻的，即 p = 1/2,此时上式变成 

“ <fe > wex P{-~ifc+i~ 2 } « «p{-2£t} 

上面最后的近似式利用了 exp{(fc- 2)/2 fc+1 } w 1 或 （fc - 2)/2 fc+l » 0 •令 = ln 2 n, 



p ( L n > k )= / >{在《 次试驗中出现连续 * 个正面向上 } = p(g Ei ) 


利用事件和的概率的容斥恒等式， 

«=1 r=l h< - <ir 


♦ Si 表示与事件屄相关联的试验号的 集合. 例如， S 1 = { l,.-,k + l ). 现在考 
虑玢，… ， E n -灸中 r 个事件的交的概率（把事件 E n . k+1 排除在考虑之列)，即考 
虑 PiEt , …化沁 < … < 私< n - A : +1,若氏”…，中任何两个集合有相交的 
情况, P { E il - E ir )=0. 如果两两不相交，则屄,, • 

• ，礼中， 

-p) r 若负”…人互不相交 




E ir 是相互独立的， i 
戸有两个相交的情况 


现在我们要确定 h <… < 私< Ti - * + 1中 使得氏 ,，…，互不相交的组数. 
首先注意到，对于毎个集合 S ijt j = 对应了 k + 1 次抛掷硬币.而这些 

集合又不相交,一共对应于 f(ifc + 1) 次抛掷硬币.现在考虑 r 个相同的字母 a 和 
n - r(k + l ) 个相同的字母&的排列,其中每个 a 对应于一个集合毎个&对应 
于 S ri ,j = l ,--, r 以外的一个指标.现在假定这些 a 和6己经排好一顺序.每一 
个排列对应于不相交的指标集 S h 、…， S ir 的一种选择.排列的第一个 a 前面的6 
的个数代表 Sh 之前的试验的次数.若第一个 a 前面有 h - 1个6, 那么氏 ，刚好 
由 { ii.ti +1,…，“ + fc } 组成,而排在第一个 a 与第二个 a 之间的 的个数，刚好 
对应于礼之后，之前的试验次数 ，…. 由于这些 a , 6 的排列共有 ~ rfc ) A '. 


每一个排列对应于—个不相交的 Si ”"， S ir 的一种选择,这样 


E m •五 ‘)= 0卜# 

注意到在事 件和的 容士等式里边的相应的求和公式为 


E p ( n ) 

我们将这个和号进行分解① 

53 P(Eii ■ ■ ■ = 53 Pd-.E^) 

il<—<ir n< … cit^n-fc+l 

+ X) 尸 d"n+i) 
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得到 

+ «© a+ G) a =i p ‘ - Ml) + «© 2+ ® a = s 

这显然是正确的•因为 4 次抛掷硬币，连续两次出现正面的情 况为： hhhh , hhht , 
hhth , hthh , thhh , hhtt , thht 和 tthh , 共有 8 种情况，每种情况出现的概率为 
1/16. ■ 
泊松分布的另一应用表现在这样的情形中，“亊件”发生在某些时间点上.这 
种亊件的例 子有： 发生一次地震，某人进入特定地点（如银行、邮局、加油站等)，燦 
发一次战争等.我们假设这样的亊件发生在一列（随机）时间点上，并设存在某个 
正的常数 A 使得如下条件成立. 

1. 在任意长度为 ft 的时间区间内，正好发生一个事件的概率彼此相同，都等于 
AA + o ㈨ ，其中 o (/ i ) 表示任何满足 ㈨ //»= 0的函数 f ( h ). [例如 /(/») = h a 
是 0( h )， 而 /(；») = /» 不是 0( h ).] 

2. 在任意长度为；》的时间区内发生2个或更多个事件的概率非常小，等于 

o(h). 

3. 对于任意确定的自然数 n 与非负整数以及任意71个互不相 
交的时间区间，若以玖表示“在第 i 个时间区内上述事件正好发生为次”，则 
说 ，场… ，&相互独立 • 

粗略地说，条件1与条件2说明，当/ I 比较小时,在长度为/»的区间内正好发 








个子区间包含多于 1 个亊件 } 

尸{第〗个子区间包含多于1个亊件 } 用布尔不等式 

者 ( XH [樂] 

因对任何 t , 当 n - 00时， t/»i 0,从而由的定义可得，当 n — oo 时， 
o ( t / n )/(«/ n ) -* 0. 因此,当 n - oo 时， 

P ( B )-»0 (7.3) 

另一方面，由于条件1与条件2蕴涵① 

在长度为 h 的区间内有0个亊件发生 } 

=1 — [Ah + o{h) + o (/ t )] = 1 — Xh — o{h) 

又由独立性条件 3 可得 
P{A) 

= P { n 个子区间中某#正好各含1个事件而其余 n - fc 个子区间各含0个亊件 } 

=盼德每。0广 

伹因当 n — oo 时， 

" M )]= 叫榮 H 

故采用与证明二项随机变■:的泊松近似相同的方法可证，当 n — oo 时， 

P ⑷ — e -鉍磬 （7.4) 

因此，由 (7.2),(7.3),(7.4) 式，令 n — 00,我们得到 

P{N(t) = k} = * = 0,1,2, ••- (7.5) 

①两个形 如。 ㈨ 的®数之和仍为 o ( fc ), 这是因为，若 Bm /(/»)//»= lim ff ( fc)/A = 0,南 Um [/( fc ) + 








4.8.1 几何随机变置 

考虑独立重复试验,每次成功率为 p ,0 < p < 1，一直进行直到试验成功•如果 
令 X 表示需要试验的次数,那么 

P{X = n > = ( l - p) n - l p n = l ,2, •• (8.1) 

上式成立是因为要使得 X 等于 n , 充分且必要条件是前 n - 1次试验失败而第 n 
次试验成功.又因为假定各次试»都是相互独立的，因此 （8.1) 式成立 • 

由于 0O 00 

=»}=- p )" _1 = 1_(1 = 1 

这说明试验最终会出现成功的概率为 1. 若随机变量的分布列由 （8.1) 式给出，则 
称该随机变量为参数为 P 的几蚵 ( geometric ) 随机变量. 

例 8 a —个坛子里有 iV 个白球和 M 个 黑球. 每次从中取出一个球,观察球 
的颜色并放回，重复这个过程,直到取出一个黑球，求以下亊件 概率： 

( a ) 正好取球 n 次； （ b ) 至少取球 fc 次 • 

供：令 X 表示要取出一个黑球需要取球的次数 ，则久 满足公式（8.1)，其中 
p = M/(M + N ), 因此 

W 

/ N \ n_1 M MJV "- 1 

P < X = n > = (,ATnvJ mTn = {M + N)^ 

⑻ 

p ^ >fc > = MTiv£(MTlv) n 1 
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问题 （ b ) 的答案可以直接得到，因为至少需要 ifc 次取球意味前 A ； - 1次拿到的都是 
白球,亦即前 A : - 1次试验都失败.这样,对于一个服从几何分布的随机变量， 

例 8 b 计算几何随机变量的期望. 

解：令 g = l - p , 我们有 

e [ x )= =£(<-1+i)9 i - i P=f;«- + fy-v 

i=l «=1 »=1 1=1 

=+ 1 = +1 = ^ E [ X ] + 1 

因此 pE[X] = l, 由此得到 E[X]^l/p. 也就是说,一个成功的概率为 p 的试验，如 
果独立重复进行直到试验成功，那么需要进行的试驗的次数的期望等于 1/ p . 举例 
来说,掷一枚均匀骰子,直到出现一次点数为1,需要掷的次数的期望为 6. ■ 

例 8 c 计算几何随机变置的方差. 

解： 为了计算 VarPQ, 先计算 E[X% 记 9 = 1 - p, 我们有 

E [ X 2 ) = = £(<- 1 + !) V~ l P 

= D *- 1) V _1 P + E 2(< - l ) g < - 1 p + f； 9 , - l p = Vp + 2 f>Vp + 1 

i=l *=1 i=l j=0 

= qE[X a ) + 2qE[X] + l 
利用公式 E[X] = 1/ p , 由上面的公式得到 

pE[X 2 ] = ^ + l 

因此， 

寧 2 I = 穿=安 

再利用方差的公式得到 

Var(X) = E[X^\ - (£?[X]) 2 = « + l- ^ = ^ = i^£ _ 

4.8.2 负二项分布 

考虑独立重复试验,每次成功的概率为 P ，0 <p < 1,试验一直进行到一共累计 
成功了 r 次为止.令 X 表示此时试验的总次数，则 

P{X = «} = (；- }) p r ( l - p) n ~ r n = r,r + l ,-- (8.2) 



功所需的试验次数,等等.因为试验是相互 


Vi , 妁，都为几何随机 变量. 而几何随机变童的 
此 ， EU -定为有限值.这样 （8.3) 式就得到了证明 
若随机变量 X 的分布列由 （8.3) 式给出，那么称 


binomial ) 随机变量.注意几何随机变1：就是参数为 



次抽取根火柴时候正好取中的是右边口袋，而且是第 (N + 1 ) 次取中右边口袋，因 
此，利用公式 (8.2 )(p = 1/2, r = JV + l，n = 2 JV - A : +1)，有 

另外，还有同样概率的事件是第一次发现左边口袋里的火柴盒是空的，而此时 
右边口袋火柴盒里恰好还有 * 根火柴.而这两个亊件又是互不相容的，因此所求概 

剛 = ev )(『 ■ 

例 8f 计算参数为 （r, P) 的负二项随机变 置的期 望值和方差. 




b MK) 





师 )4( 宁-々普^ ■ 

从例 8 f 可以 看出： 如果进行独立重复试验，每次成功的概率为 P , 则需要累积 
r 次成功的总试验次数的期望值和方差分别为 r / P 和 r {\- pW . 

由于几何随机变量就是参数 r = 1的负二项随机变量，由上面的例子可得参数 
为 P 的几何随机变量的方差为 ( l - rt / p 2 , 这样就验证了例 8 c 的结果. 

例 8 g 连续掷一枚敗子，一直到点数1出现了 4次，求投掷总次数的期望值 

















其中，最后等式成立的条件是 p = m / JV 且 m 和 JV 相对 n 和 i 来说都很大. 
例 8 j 试计算里从参数为 ( n , JV , m ) 的超几何随机变量 X 的期望和 方差. 



* OD 


可以得到 

其中， y 是一个服从超几何分布的随机变氣其参败为 ( n - l , N - l , m - l ). 因此, 
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注释例 8 j 已经指出,从 W 个球（白球的比例为 p ) 里随机无放回抽取 n 个球， 
那么抽取到的白球数的期望为 np . 而且,当況相对 n 很大（这样 ( N - n )/( N - l ) 
近似等于 1) 时，有 Var ( X )« np ( l - p ), 也就是说, E [ X ] 与有放回抽球情形下（此 
时白球数为参数为 ( n ， p ) 的二项随机变量）是一 样的. 而且,如果总的球数很大， 
那么 Var ( X ) 近似等于有放回的情形.当然，这正是我们之前的 猜测： 当坛子里的 


4.8.4 C ( Zipf ) 分布 

一个随机变量称为服从 C 分布(有时也称为 Zipf 分布),如果其分布列 如下： 

其中 a > 0 为 参数. 因为概率之和必然等于1,因此有 

c -&r 

c 分布的名字来源于以下函数 

⑼…魟+紅+―① •+••• 

它是数学中熟知的黎曼（函数（起源于徳国数学家 G . F . B . 黎曼) • 

C 分布曾被意大利经济学家 Pareto 用来描述某个给定国家的家庭收入的分布 • 
然而，把这一分布运用到更广泛的各种不同的领域,从而推广其应用的是 G . K . Zipf , 
因此又叫 Zipf 分布. 

4.9 随机变置和的期望值 

随机变量的一个十分重要的性 质是： 诸随机变量之和的期望值等于它们的期 
望值的和.本节中我们将证明这个性质，不过我们对样本空间作一个限制，那就是 
样本空间 S 是有限或可数无限集合•当然，没有这个限制，随机变貴还是具有这个 
重要性质的（在理论习题中将给出证明的纲要).我们作这样的限制，不但可使证明 
变得简要而且可使期望变得更加 直观. 因此,在本节中，我们将假定样本空间5为 
有限或可数无限集合 • 

对于随机变量 A •，用 X {») 表示当试验结果为 s e S 时随 机变量 的取值•当 
x , y 是随机变量,则它们的和 z = x + y 也是随机变量，并且％) = x ( s )+ y ( a ). 

例 9 a 设试验为抛掷一枚硬币共 5 次,此时试验结果是正面与反面的一个序 
列（长度为 5) •设 x 为前面三次抛掷得到正面向上的次数, y 为后面两次抛掷所 





±, t 表示反面向上)， 


X ( g ) = 2 V ( s ) = 1 Z ( a ) = X ( a ) + Y ( a ) = 3 
其意 义为： 结果 S = 中前 3 次抛掷得到 2 次正面向上，后2次抛掷得 

到1次正面向上，而 ZOr ) 刚好是5次抛掷得到正面向上的总次数 （3 次). ■ 

记= P ({ a }) 表示试验结果 s 的概率.对于任何亊件可以写成有限个 
或可数无限个互不相容的亊件彳之和，利用概率公理可知 

当 A = S 时上式变成 

i = SpW 

现在考成随机变量 X 和它的期望由于 X 的取值为 X ( s ) t 其中 a 为试验结 
果, E [ X ) 在直观上可以认为是 X (8) 的加权平均,其权值刚好是 S 出现的概率 p ( a ). 
现在证明这个直观的结论. 

命题 9.1 

E[X] = ^X(5)p(«) 

证明：设； f 的取值范围为灼一 > ^对每一个 i , 令&表示事件 {X =韌}，即 
Si = [a : X ( B ) = Xi }. 由期望的定义,通过一串等式就可以得到命题的结论， 
E [ X ]='£ > x i P{X = x i } 

= ^> P (5 4 ) = ^> pP («) 

x < K *) x ( 钟） 
i «€5 i i «6 S 4 



其中第一个等式是随机变童期望的定义,最后的等式是样本空间 S 为诸不相容的 

事件灸， s 2 ，... 之并. ■ 
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由期望的定义知 

E [ X \ = 0 ■ (1 - p ) 2 +1 • 2 p ( l - p ) + 2 p 2 = 2 p 

而由命题 9.1 得到 

E [ X ] = X ( h , h ) p! i + X ( h t t ) p { l - p ) + X ( t , h )( l - p)p + X ( t , t )( l - p) i 

= 2 p I + p ( l - p ) + ( l - p)p + 0 = 2 p 

两种计算方法得到的结果相同. 

现在我们来证明关于随机变量和的期望的一个十分重要且有用的性质. 
推论 9.2 对于随机变量 X lt - - , X n , 下式成立 



证明： 令，利 用命题 9.1 得 
E[Z] = gZ(s)p( a ) 

+ 於⑷ + ••• + ^»(«)) p («) 

= + + ••• + Y.XMpis) 

^ElX^ + E^+ ' + ElXn] 

例 9 c 设抛掷 71 颗均匀的骰子,求得到点数之总和的期望值. 
解：记 X 为得到点数之总和,利用下列 X 的表达式来计算 E [ X\x 

X = P i Xi 

其中 Xi 为第 i 颗敗子出现的点数.由于每颗殺子都是均匀的，得到 








中的任意一个球 （ TV 个）都有相同的机会在第 i 次抽中，因此第 i 次抽取抽中白球 
的概率为 p = m / N , 尽管各次抽取互相不独立,但是无放回抽样还是符合本例的要 
求,抽得白球数的期望为 np = nm / N . U 

例 9 e 在例 9 d 中讨论了两种特别的情况，二项随机变量和超几何随机变量， 
试导出这两个随机变量的方差. 

解：令 X 表示 n 次试缠中成功的次数（在超几何随机变量的情况，第 i 次取 
出白球视为该次试验成功).如上例所示， X 可以写成久=我们得到 

£ 昨 £ [(»(&)1 =£ [1；+ + 0)] 

=£? + =亡响 + 柳叫 （9.1) 

L«=l <=1 jjti J <El <画1 


上式中最后一个等式用到了 = 不.由于 Xi,Xj 只取0, 1两个值，我们得到 


ElXiXj ] = P{Xi = l,Xj = 1}=尸(第 i 次试验和第 j 次试验都成功） 
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BX 是二项随机变量时，不与&相互独立，这样 
= p 2 , i+i 

再利用 （9.1) 式,可得到 

£[ X a ] = np + n ( n - l ) p !， 

从而 

Var ( X ) = E [ X 2 ) - (£[ X]) a = np + n ( n - l ) p 2 - nV = np ( l - p ) 

当 X 是超几何随机变量的时候， P{Xi = l,Xj = l } 可以这样 求得： 在第 i 次 
取得白球情况下，第 j 次抽取时，剩下的 AT - 1个球具有相同的机会被抽取，而抽 
到白球的条件概率为 （m - 1)/( N -1). 这样 

P{Xi = 1,- X > = 1} = P{Xi = l } P{Xj = 1| X « = 1} = ^ • 

利用 (9.1) 式 (Pi = m / N ) 可得 

朴詈峰 1 紹 

其方差为 , 2 

Var(X) = ^ +n(n_ - (安） 

如例 8 j —样，上式可化简为 

Var ( X ) = np(l _ p ) (1 - 

其中 p = m/JV ■ 


4.10 分布函数的性质 

回顾X的分布函数 F 之定义， F(6) 表示随机变量取值小于或等于6的概率. 
以下是一些有关分布函数的性质. 

1. F 是一个非降函败,也即，如果 a < &,那么< F(6); 

2. UmF(6) = l; 

3. 6 Um o F(6) = 0; 

4. F 右连续的，也即，对于任 — 6 和一个递减且收敛于6的序列 &„，n > 1， 





所有有关 X 的概率都可以通过其分布函数 F 进行计算.例如 

P { a < X ^ b } = F ( b )~ F ( a ) 对任意 a < 6 (10.1) 

将事件 {X < 6} 写成互不相容亊件 {X < a } 和 {a < X < 6} 的并也可以得到这 
点，即 {X <6} = {义 < a } U {a < X < 6}，因此， P{X <6} = P{X < o } + P { o < 
这样，公式 (10.1) 就成立了. 

如果要计算“ X 严格小于6” 的概率,那么再次利用概率的连续性可以得到 


注意 P{X < 6} 并不一定等于 F (6), 因为定义 F ⑻亊件为 {*<6}+ {* = 6}. 






解: W m < 3} = UmP{x <3-1}=^(3-1)-§ 

(b) P{X = 1} = P{X < 1} - P{X < 1} 

= F(l)- n li.F(l-I)=|-I = I 

(c) P{jf>|} = l-P{x<I} = l-F(i) = ? 

⑷ P{2<X<4} = F(4)-F(2) = ^ 

小 结 


定义在试验结果上的实值函数称为随机变量 (random variable). 

如果X是一随机变量,那么如下定义的函数 F(x) 

F(x) = P{X^x) 

称为随机变童X的分布函数 (distribution function). 任意有关X的概率都可以通 
过 F 进行计算. 

若一个随机变量的可能取值的集合是有限集，或者可数无限集，那么称该随机 
变量为离散型随机变量.如果X是一个离散型随机变量,那么函数 


p(x) = P{X = x} 


称为X的概率分布列或分布列.另外,如下定义的 E[X] 


称为X的 J 

expectation) 

设咖) 


X 的期望值 (expected value), E[X ] 通常也称为X的均值 （mean) 或期望 （ 


) 是一个实值函数，则对于离散型随机变童X,关于 E\g{X )) 的一个有 
用的计算公 式为： 

E\g{X)}= X； 9(x)p{x) 


随机变1：久的方屋（ variance), 记为 Vu(X), 定义 如下： 

VarW = £；[(X- 聊 

方差等于X与它的期望的差的平方的期望，它 度量了 X可能取值的分散程 
度.下面是一个有用的恒等式 




P(0=P(1-P) <-1 i = 1.2," 

则 A " 称为参数为 P 的几蚵 ( geometric ) 随机变量.在独立重复试验序列中，从开始 
直到第一次成功为止的试验次数就是几何随机变量，其分布参数 P 就是毎次试验 
成功的概率.其均值和方差分别为 

E [ X ) = J Var(X) = ^ 

若随机变量 X 的分布列为 

= 广 i^r,r + l, - 

则 X 称为参数为 （ r ， p > 的负二項 (negative binomial ) 随机 变量. 在独立重复试验 
序列中，从开始直到第 f 次成功为止的试验次数就是负二项随机变量.分布列中的 
参数 P 就是每次试验成功的 概率. 其均值和方差分别为 
E[X]^ r - Var(X) = ^p^ 

设从一个装有 AT 个球，其中 m 个白球的坛子里，随机抽取 n 个球，其中白球 
的数目就是参数为 { n , N , m ) 的超几何随机 变量. 其分布列为 





其均值和方差分别为 


B [ X ] = np Var(X) = ynp(l-p) 

其中 p = m / N . 

期望的一个重要性 质是： 随机变量和的期望等于它们的期望之和.即 


1. 坛子里有8个白球, 4个黑球, 2个橙色 K k 中抽取2个.假设抽取的球中毎一个 

黑球能贏得2元,每个白球要输掉1元. • 最后贏得的败目， 那么； f 的可能取值 

是哪些？取这些值的概率是多大？ 

2. 掷2枚均匀的«子.令X等于2枚骰子的点数 

3. 掷3枚败子.假定6 2 3 4 5 = 216种结果都是等可能白 

X 取各可能七 

4. 5个男生和5 

所有10!种可能排名都是等可能的.令； f 表示成绩最髙的女生在全体同学中的排名（比 

如，X ■ 1 表示第一名是女生)•求 P{X = <},*= 1,2,3, •••,8,9,10. 

5. 掷一枚硬币 n 次，令X表示得到的正面朝上败与反面朝上数之差 • X的可能取值是哪 



X 表示得到的正 D 

. 在习题5中， 如果磧 币是均匀的,对于 n = 3,计算X的分布列 • 
. 掷一枚骰子2次，以下随机变量的可能取值是嘿些？ 


两次投掷出现的最 大值； 
两次投掷所出现的点数 之和; 
I 7中，偎设败子是均匀的，讨 


(b) 两次投梅出现的最 小值； 

(d) 第一次投拥的值减去第二； 

的，计算 （a) 到 （d) 里各隨机变量可能取值的概率. 





































博弈值. 























































以下亊件的条件 概率： 

(a) 前三次为 H,T,T (意味着第一次为正面期上，第二次为反面期上,第三次为反面期 上)； 

(b) 前三次为 T.H.T. 

51. 某本杂志的一页上的印刷错误的个数的期望为 0.2, 那么下一页的印刷错误数为 （*) 0, (b) 
2的概率是多大？解释理由. 

52. 全世界毎个月商业飞机发生坠致亊故的平均值为 3.5, 以下亊件的概率是多大？ 

(a) 下个月至少有2起坠毁 亊故. （b) 下个月至多1次坠毁亊故. 

试解释原因 • 

53. 去年纽约州大概举行80 000次婚礼.估计如下概 率值： 

(a) 至少有一对夫妇他们都出生于4月30日， （b) 至少有一对夫妇生日相同 • 

说明你做的假设. 

54. 某髙速公路上每用丢弃车辆的平均值为 2.2, 求以下亊件概率的近 似值： 

(a) 下一周没有丢弃 车辆； （b) 下一周至少丢弃两辆车. 

55. 某打字社雇了两名打宇员_第一个打字员打字时，毎篇文章出错的平均数目为3,而第二 
个打字员每篇文章出错的平均数目为 4.2. 如果你的文章等可能地分 K 给这两个人，近似 

56. 其中至少有一人与你生日相同的橛率超过1/2? 

57. 假设某髙速公路上每天亊故数是一参数为 A = 3的泊松随机变量， 

(a) 求今天至少发生3件亊故的概率； 

(b) 在今天至少发生了一件亊故的俚定条件下，重做 (》). 













血样混在- 起进行 检测. 

⑷求混合的血液呈阳性的近似概率（这样至少有一 
现假定血液呈阳性. 

(b) 这种情况下，多于1人患此疾病的概率有多大？ 

再设其中一人球斯知道自己患有该疾病. 

(C) 琼斯认为多于1人患此病的概率有多大？ 

由于浪合样本为阳性，医生决定每一个人都要测试. 

斯,检査为阳性. 

(d) 作为 i 的函数, i 后面有人患此病的概率是多大？ 

由《对夫妇组成的 2n 个人随机（任何一种顒序都是等可能的 













































































166 第 4 幸随机变量 


( c ) 这段时间内最多发现1个矿点. 



提示： 利用分部积分. 

27. 如果 X 为一几何随机变量，给出分析的 证明： 

P{X = n + fc | X > n } = P{X = fc } 

利用几何随机变量的定义直观地说明上式成立的原因. 

28. 令 X 为参数为 （ r , p ) 的负二项随机变量，令 y 为参数为 （ n , p ) 的二项随机变量，指出 

P{X > n } = P{Y < r > 

提示： 可以有两种方法完成证明.一种用分析的方法，上式等价于下列恒等式 

另一种是利用随机变量的概率解释.即考虑进行一系列成功率均为 P 的独立试验，用试 
验结果表示事件 {X > »>和< r }. 

29. 设 X 为-超 几何随机变量，计算 P{X = k + 1>/ P{X = *>. 

30. 坛子里装有标有号码1到 N 的球.假设随机无放回地抽取 r » 个球, n 矣汉•令7表示 
抽取的球中最大号码 • 

⑷求 y 的分布列. 

( b ) 导出 E [ V 1 的表达式,然后利用费马组合恒等式（参见第1章理论习鼉 11) 予以简化. 











































• 某个地区平均来说,毎年会 aa 5.2 次舰袭 
者更少的概率是多大？ 

. 某个种类的昆虫产在一片树叶上的虫卵的数目 
机变童的取值只有当它为正整数时才能知道, 
因为我们不知道这片树叶上是否有昆虫，令 y 


其中 x 是一个服从参数为的泊松分布的随机变量，求 E \ Y ]. 

有 r » 个男孩和 n 个女孩，每人都随机且独立地选择一名异性.如果正好有 一名男 孩和女 
孩互相选中了，那么他们将被配成一对.给女孩编上号码，令表示亊件“号码为 i 的 
女孩被配成了一对”，令 ft = 1 - PdCL . Gi ) 表示没有任何一对配成的概率. 

















第 5 章连续型随机变量 

5.1 简 介 


在第4章我们讨论了离散型随机变量，这类随机变量的可能取值的个数或者 
是有限的，或者是可数无限的.然而，还存在一类随机变量，它们的可能取值是无 
限不可数的.比如以下的两个 例子： 火车到达某个车站的时间以及某个晶体管的寿 
命.我们称X为一个连 缕塑① (continuous) 随机变量,如果存在一个定义在实数轴 
上的非负函数/，使得对于任一个实数集 B®, 下式成立 

P{X€B} = J f{x)dx (1.1) 


函数/称为随机变量X的概率密度函教 

(probability density function), 或者密度函 
数（参见图 5 .1). 

换句话说， （1.1) 式说明了 X厲于 S 
的概率可以通过对概率密度函数在集合 
B 上积分得到.既然X必取某个值，因 
此/—定满足 

1 = P{XG (- 00 , 00 )} = ^~/(x)dx 
所有关于； f 的概率都可以通过/进行计 
算得到.例如，令 S = [o,6], 通过 （1.1) 式 
可以得到 



P{o < X < 6} = 


f 严 


(1.2) 


在上式中令 a = i», 可以得到 

P{X = a} = f f{x)dx = 0 

也就是说，对于一个连续型随机变童，它取任何固定值的概率都等于0•因此，对于 



—个连续型随机变量，有 


p i x < <*} = P{X ^ a } = F ( a ) = J° f ( x)dx 

假设 X 是一个连续型随机变量,其密度函数为 


(a) C7 的值是多少？⑻求 

解： （a) 既然/是一个概率密度函数，那么一定有 /!^/(*)dx = 1,这意味着 
CjT 3 (4®-2x a )d® = l 或者 C [2X 2 - |*~ 2 = 1 

这样 C = 3/8,因此 (b) P{X > 1} = /r/ ⑻ dx = ! 2x 2 )dx = i ■ 

例 lb 某台计算机在死机前连续运行的时间（单 位： 小时）是一个连续型随机 
变量,其密度函数为 


Hr 


以下事件的概率是多少？ 

(a) 该计算机在死机前运行的时间在50个小时到150小时之作 

(b) 运行时间不超过100小时 • 

解：⑷因为 

1 = J°° f(x)dx = \J^e- x ^ m dx 

这样可得 

1 = -A(100)e-/ loo |~ = 100A 或 X = ^ 
因此，电脑在死机前运行了 50到150小时的概率为 

P{50 < X < 150} = / 18 °i50 e "* /1OOAr = - e_l/l0 °l« 


P{X < 100} = 乂⑽士 - " 100 * 1 ® = -e _ * /100 『 =1 - e- 1 « 0.633 
也就是说，电脑在连续使用100小时以前，大约63.3%的可能会 死机. 



例 1 C 收音机的某种电子管的寿命是一随机变量，其概率密度函数为 


假定收音机里有5个电子管，并且这些电子管的寿命是相互独立的，在150小时内， 
这台收音机的5个这样的电子管里正好有2个需要更换的概率是多大？ 

解 ：令玖 表示“在给定时间内第 i 个电子管需要更换” (i = 1,2，...，5)， 


= jT l8 °/(x)dx = l 


P ( Ei ) = 

利用亊件屄之间的独立性,可得所求概率为 

分布函数 f 与密度函数/之间的关系可以表示为 
F(a) = P{X€(-oo,a\} = j^J(x 


对上式两边求导，得到 




/W 


ix = a 处连续•换名 
S 似等于"⑷.通赶 
r 能性的一个度量. 


v ⑷ 


其中 e 是一个小数，且 /(•) 在 * = 0 
长度为 e 的小区间内的概率近似芎 
随机变量取值于点 a 附近的可能性 

例 Id 设 X 是一个连续型随机变量,其分布函数为 Fx , 密度函数为 / x , 求 
Y = 2X 的密度函数. 

解： 用两种方法求解斤. 第一种 是直接求分布函数,然后求导， 

外⑷ = P{Y <o} = P{2X <o} = P{X< a/2} = F x (a/2) 


求导 得到： , 

扣 ⑷ = ^/x(a/2) 

另一方法是，注意到 

= p{|-|<X<| + |}«|/x(a/2) 



两边除以 e 就可以得到与前面相同的结果. 


5.2 连续型随机变置的期望和方差 
在第4章,我们定义了离散型随机变量的期望值如下 
E\X) = ^xP{X=x} 

如果X是一个连续型随机变量，其密度函数为/⑻,那么由 
/(®)dx«P{*<X<* + da:} 对于很小的 d® 

很容易看出，可用类似的方法定义连续型随机变量的期望值为 

S[X] = y~*/(*)dx 


例 2a 随机变量； f 的密度函数为 


: {r 


如果 O^c 彡1 


求 £[X]. 

E[X] = f x/(*)d® = jf 1 2® a da: = | ■ 

例 2b 随机变量 X 的密度函数为 

f 1 如果0 < o: < 1 

叫 。其他 

求 £[e*]. 

解：令 y = 我们从计算 PV, 也即 y 的分布函数 开始. 对于1 < * < e, 有 

外⑻= P{Y <*} = P{e x <*} = P{X < lnx} = jf f{y)dy = ln® 

对 Fy(*) 求导,我们可以推导出 y 的概率密度函数 如下： 

/k(*) = I 1 < » < e 

因此， 

五[〆] = EpT] = J xf r (x)dx = £ dx = e-l ■ 



在例 2b 中利用命题 2_1 可得 


E[e x ] = J 1 e x dx = e-l 


这个结果与例 2b 中的结果是一致的 • 

命题 2.1 的证明比离散情形下更复杂，我们仅在随机变童 g(X ) 非负的条件下 
证明本命题. (g(X) 为一般的情况下的证明，作为我们给出证明的后续部分，见理 
论题2和 3.) 我们需要以下引理. 


= f : P{Y > v}dy 


证明： 本证明中，我们假定 y 3 


,其密度函数为 /y. 此 


【 P{y> y}dy = ⑻ drtdv 

此处利用了亊实 p{y >»} = / tf °°/K(*)d®, 交换上式的积分次序,可以得到 

j^P{Y >y}dy = 乂°°(乂 *d V )M*)d® = 乂 °°* 斤 ⑻ dx = E[Y] □ 

命鼸 2.1 的 证明： 对于任一函数仏其中 S(*) > 0,根据引理 2 .1，有 
= J:Pb(X) >y}dy = J"I^^J^dxdy 
=f 广 )dy / ⑻ dx= / y(x)/(x)d® 

Jx-.g(x)>0 JO Jx-.g{x)>0 

这样,命题就得到了证明. 口 

例 2c —根长度为1的棍子在点卩处断开,其中卩脹从（0, 1) 上的均匀分布， 
求包含点 P 的那一截的长度的期望值 (0<p<l). 

解：令 L P (U) 表示包含 p 的那一截的长度， L P (U) 具有下列表达式（见图5_2 










本推论的证明完全类似于离散型随机变量情形下的证明.不同之处仅仅在于 
求和换成了积分，分布列换成了密度函数. 

连续型随机变量的方差的定义也同离散型情况是_样的，也即，如果X是一 
个连续随机变量，期望值为 M， 那么X (任何类型的随机变量）的方差定义 如下： 
Var(X) = £?[(X-A*) 2 l 

另外一个公式就是， 

yBx(X) = E[X^)-{E[X]f 
该公式的证明方法同离散型情形也是一样的. 

例 2 e 求例 2a 里的随机变 量久的 Var(JQ. 

供 :我们先来计算 E[X% 

E[X 2 ] = J //(*) d* = 乂 2I 3 dx = I 

由 E[X] = 2/3, 可以得到 Var(X) = \- (|)* = 忐. ■ 

类似于离散型情形,还可以 证明： 对于常数 a 和《»，有 
Var(oX + 6) = a 2 Var(X). 


5.3 均匀分布的随机变量 



其他 


利用 F(o) = /^/(xjdc, 我们可由上式得到区间 (a,P ) 上的均匀分布的随机变量 
的分布函数为 



<► H 


W/(a) (•>) FW 

图 5.3 (a，0) 上均匀分布的密度函数 /(<») 和分布函数 F ⑷ 

例 3a 令X在 M) 上取从均匀分布，求 （a) £：[X]; (b) Var(X). 

E[x] = j:J mdx= f: J^ Ax= 

也就是说，在某个区间上服从均勻分布的随机变量的期望等于该区间的中点的值- 
(b) 为了计算 Var(X), 先计算 E[X% 




(b) P{X > 6} = jT 10 (c) P{3 < X < 8} = jT 8 idx = i ■ 


例 3c 公共汽车从早上 7 点钟开始,到达某一车站的时间间隔为15分钟.也 
就是说,汽车到达的时间为7点, 7点15, 7点30, 7点45, 等等. 如果某个乘客到 
达车站的时间服从7点到7点半之间的均匀分布,求以下事件的 概率： 

(a) 他等公共汽车的时间不超过5 分钟； 

(b) 他等公共汽车的时间超过10分钟. 


解：令 X表示从7点到该乘客到达车站的时间差（分钟)，这样X就是一个区 
间在（0, 30) 上服从均匀分布的随机变量.乘客等待时间不超过5分钟，当且仅当 



同的方法来重新阐述这个问题. 


第一种 方法： 弦的位置可由它到圆心的距离确定,此距离的变化范围为0到7% 
其中 r 为圆的半径.这样，当弦与困心的距离小于 r/2 时，弦长将大于圆内接等边 
三角形的边长.因此,假设随机地取弦意味着弦到圆心的距离£>服从0到 r 的均 








画了好多平行线，平行线之间的距离为 2r， 现将一个直径为 2r 的圆盘往桌上扔，那 
么，这个圆盘必定与某条平行线相交，该平行线与圆盘相交形成一条弦.这条弦的 
长度决定于圆盘的圆心在平面上的位置.此时，这条弦的长度分布与第一种情况相 
适应.因此，弦的长度大于内接正三角形边长的概率为 1/2. 如果在桌子上画一个 
半径为 r 的圆，在圆周上取一点，记为 A 在>1点上钉一根可以任意绕乂点转动的 
针,这个针与圆周总会相交而得到一条弦，而这条弦的长度分布就与第二种情况相 
同,其长度大于内接正三角形边长的概率为 1/3. ■ 

5.4 正态随机变置 

我们称X为服从参数为 m 和/正态分布的随机变童，或者就简单称为正态 
随机变量,如果 A" 的密度函数为 

/(*) = -oo<x<oo 


该密度函数是一条关于 /x 对称的钟型曲线（如图 5.5). 



(a)/i=0.<r-l (W 任童的 z*,〆 


图 5.5 正态分布密度函数 


















这样就证明了， y 确实服从参数为 a/x + 6 和 oV 2 的正态分布. 

上述结论的一个重要应用就是，如果X是一个参数为 （ M , 〆）的正态分布随机 

变量，那么 Z = (A ■- 就是一个服从参数为 （0, 1) 的正态分布.这样的随机变 

量称为标准正态随机变量. 

接下来证明，正态分布的参数 m 和 o 2 分别代表了它的期望和方差. 

例 4a X是一服从参数 p 和^的正态分布的随机变量,求 到； f] 和 Var(JC). 
解： 先从计算标准正态分布随机变量 Z = (X - M ) At 的期望和方差开始，有 

£[z) - 〜 = -^•- / T„=o 

因此， 

Var(Z) = E[Z 2 ] = ^/°° * 2 e-** /a d* 

通过分部积分 （ U = x,dt; = 得到 

恤…忐(-»叫二+/>*^) = 去£ 〆 ％= 1 

由 X = /i + «rZ 得到 


E[X\ = n + aE[Z\ = ii 及 Var(X) = ^V^Z) = a 2 


按照传统的记法,一般将标准正态分布的分布函数记为 *(*), 也即 

对于一个非负数 a：，*(x) 的值在表 5.1 己经给出.对于一个负数 a:, $(x) 的值 
可以通过 （4.1) 式计算得到 

*(-*) = 1 - 9(x) -oo < * < 00 (4.1) 

公式 (4.1), 可以利用标准正态密度函数的对称性得到,证明留作习*.该公式表明， 
如果 Z 是一个标准正态分布的随机变童，那么 

P{Z< -*} = P{Z > x} -oo<*<oo 
因为当 X 服从参数为 M 和 P 的正态分布时, Z = {X-n)/a 服从标准正态分布， 
因此, A" 的分布函数可以 写成： 

Fx ⑷= <<*} = ^( X g — < 

例 4b 如果 X 服从正态分布，参数为 Ai = 3 和 <^ = 9, 求 
(a)P{2<X<5} ； (b)P{X>0} ； (c)P{|X-3|>6}. 






















P{X >n + a}= p{^^ >l} = l- 电⑴ 》 0.1587 
P{^<X<n + a}=P{0< <l} = #(1) - *(0)«0.3413 

P{n-a<X<n}^p[-l< - <0} = *(0)- *(-l) « 0.3413 

P{H-2a<X<n-a}=p{-2< <-l}= 金 (2) - *(1) » 0.1359 

P{X <n-2a}= P{^^< -2} = *(-2) »0.0228 




证词相符的时间内的概率是 

P { X > 290gJU <240} = P{X >290} + P{X < 240} 

= P{^>2 卜 {^<-3} 

=1-$(2) + 1- 列 3)«0.0241 


例 4e 考虑从 A 地到 B 地通过电信传送一个二值信号, 0或1■然而,数据通 
过电信传送过程中会遇到噪声干扰.为了减少传送出错的概率，当传送的信息为1 
时,将传送值2,传送信息是0时,就传送值 -2. 如果 a:, a: = ±2为在 A 地传送的 
数值,为在 B 地接收到的数值， {R = x + N,N 为嗓声干扰)，当信号在 B 处接收 
后,按如下解码规则. 












心极限定理的一个特殊情形，故这里不再 

大家看到,对于二项分布,我们已经有了两个可能的近 似：当 n 较大而 p 较小 
时,泊松近似是一个很好的 近似; 另外，可以证明，当 np(l-p) 较大时,正态近似相 
当好，见图 5.6. [-般来说，当 np(l -p) > 10时,正态近似就相当好 .1 

例 4f 以 A" 表示抛40次均匀硬币出现正面的次数.试求X = 20的概率.运 

S 到因为二项分布是离散整数值随机变童，而正态 
f 在正态近似前将 P{X = i} 写为 P { i - l /2 < X < 
i + 1/2} [这也称为连螓性修正 (continuity correction)]. 这样 
P{X = 20} = P{19.5 《X < 20.5} 



由于上述定理仅是第 8 章研究的中 













里我们做了怎样的独立性假设?） ■ 

例 4h 为测定能降低血液中胆固醉含量的某种食品的有效性，营养学家让100 
个人吃这种食品.经充分长的时间后，化验他们的胆固醇 含量. 如果至少有65%的 
人在吃了这种食物以后胆固醇含量降低，则进行这项试验的营养学家就决定承认这 
种食品.如果这种食品事实上对胆固醉含量不起作用，试问这位营养学家承认它的 









« 1 - $(2.9) « 0.0019 ■ 

例 4i 纽约市有52%的居民支持禁止公共场合吸烟.随机抽取 n 个纽约市民， 
问支持这项禁令的人数超过50%的概率有多大，如果 
⑷ » = 11; (b) » = 101; (c) n = 1001. 

要想该概率值超过 0.95, n 痛要多大？ 

m 令 N 表示纽约市居民人数.要回答上述问题,我们必须首先理解样本大 
小为 n 的随机抽样就是从 TV 个人当中按如下方式抽取 Ti 人： 使得种《个 
人的子集被抽到的可能性都是一样的.这样，记&为样本里支持禁令的人数，它 

是一个超几何随机变童.也即，氏的分布与从装有 N 个球的坛子里抽取 n 个球， 

其中取出的白球数的分布是一样的（其中 0.52 N 的球为白球).但因为 W 和 0.52AT 
对于 n 来说都是很大的数,根据二项分布对超几何分布的近似（见 4.8.3 t>) 可知， 
也即&的分布与参数为 n 和 p = 0.52 的二项分布是很接 近的. 再利用正态分布 


因此， 


P { S n >0.5 n } = > 二; "Jf:} 

= 二 茲 > - 0 04 + 
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求出了有关抛掷硬币试验中随机事件的概率的近似值.当时称正态分布为指数钟 
形曲线 . 1809年,德国著名数学家高斯以正态分布作为主要工具预测天文学中星体 
的位置，这时才展现了正态分布的应用价值.此后，正态分布就称为高斯分布. 

在十九世纪后半叶,大部分统计学家认为大部分数据的直方图都具有高斯钟形 
曲线的形状.事实上,大家认为正常的数据集合应该具有这种形状.由英国统计学 
家卡尔 • 皮尔森开始，将高斯曲线简称为正态曲线.（中心极限定理为许多数据具 
有正态分布的亊实提供了合理的解释,我们将在第8章讲述这 一定理 .J 

亚伯拉罕 • 棣英弗 (1667-1754) 

现在统计学已经普及，统计学家具有很好的工作环境.然而，统计学的诞生地 
却是在18世纪初的伦教，一所黑暗的、肮脏的赌窟，称为屠夫咖啡屋的地方.亚伯 
拉罕 • 棣莫弗是一个来自天主教法国的耶稣教难民，为生计，他要为各种赌博计算 
贿钱的概率 • 

虽然亚伯拉罕 • 棣莫弗在咖啡屋内谋生存，但他是一位著名的数学家，他发现 
了正态曲线.他还是里家学会的会员，并且是著名科学家牛顿的朋友. 

统计学家卡尔 • 皮尔森想象棣莫弗在屠夫咖啡屋内工作的 情景: “我想象棣莫 
弗坐在咖啡屋内肮脏的小桌边,旁边坐着一位破产的贿徒.而牛顿从嘈杂的人群走 
向棣莫弗的小桌边，拉出他的朋友.在艺术家的想象中，这是一幅多么伟大的艺术 
杰作啊。” 

卡尔.弗里徳里克 • 高斯 (1777-1855) 

高斯，正态曲线的最早应用者之一，是一位伟大的数学家.著名的数学史学家 
E. T. Bell 在1954年的著作《数学 人物 》 (Men of Mathematica) 4 >, 有一韋名为 
“数学王子”中提到了三位数学家,阿基米徳、牛顿和 高斯. “他们三位是在最伟大 
数学家之列，我们不可以以通常眼光来评价他们的贡献的 大小. 他们在纯数学和应 
用数学领域内推波助涵.阿基米德特别推崇纯数学，牛顿恰恰是把他的数学发现应 
用于科学研究,而高斯宣称无论是纯数学还是应用数学对他而言都是—样的 . ” 





下面将要说明参数 A 就等于期望值的倒数. 

例 5a 令X为一参数为 A 的指数随机变量,计算⑷ E[X), (b) Var(X). 
解： （ a ) 因为密度函数为 


;{r 


因此,对于 n > 0,有 


E[X n ] = 乂 。 VAe-^dx 

分部积分 (Ae-^d® = *;,« = *"), 可以得到 

E[X n ] = + e-^nx^dx 

=0 +5 厂 Ae ' Aaxn ' ld * = n 

令 n = 1, 及 n = 2, 可以得到 
⑻因此 

即指数分布的期望值等于参数 A 的倒数,而方差等于期望的平方. ■ 

在实践中，指数分布经常作为某个亊件发生的等待时间的分布而出现.比如， 
地震发生的时间间隔（从现在开始计算)，一场新的战争爆发时间间隔，从现在开始 
到你接到一个误拨的电话的时间间隔,等等，这些都是实践中的指数随机变量•（关 
于这种现象的理论解释可参考 4.7 节 _) 

例 5b 假设某个电话的通话时长（单 位： 分钟）为参数为 A = 1/10的指数随 
机变童.假设某人正好在你之前到达电话亭，求以下事件 概率： 

(a) 你的等待时间超过10分钟： （b) 你的等待时间在10到20分钟之间. 
解：令 X表示该人通话时长,那么所求概 率为： 

(a) P{X > 10} = 1 - F(10) = e- 1 w 0.368 

(b) P{10 < X < 20} = F(20)- F(10) = e- 1 -e- 3 « 0.233 ■ 

我们称一个非负随机变量 X 是无记忆的 （memoryless), 如果 

P{X >s + t \ X > t } = P{X > 8} 对所有的 M 彡0成立 （5.1) 
如果我们令X为某个设备的寿命,上式说明了在已知该设备已经使用 * 小时的条 
件下寿命至少为 s + t 的概率,与开始时寿命至少为 S 小时的概率是一样的•换句 











这样，就证明了 X服从指数分布. 

例 5d 假设汽车在电池用完之前跑的英里数服从均值为10 000英里的指数 

分布，如果某人要计划开始一个5000英里的旅行，那么他不用更换电池就能跑完 

全程的概率是多大？如果不服从指数分布呢？ 

解： 由指数分布的无记忆性可以得到，电池剩下的寿命（以1000英里为单位） 
服从参数为 A = 1/10的指数分布.因此,所求概率为 

尸{剩余寿命 > 5} = 1 - F(5) = e~ 5A = e_" 2 « 0.604 
然而,如果剩余寿命 F 的分布不是指数分布,那么对应概率为 
P{ 寿命 > f + 5| 寿命 > t} = 1 1 :》二) 5 ) 

其中《就是旅行前电池己经使用的寿命.因此，如果不是指数分布，那么在计算所 
求概率之前还需要了解其他信息（也即 《)• ■ 

指数分布的一个变形是一种取值或正或负，但是绝对值服从参数为 A(A > 0) 
的指数分布.这样的随机变置也称为拉普拉斯随机变貴 ' 它的密度函数为 
/(*) = |Ae -A|11 -oo<x<oo 

其分布函数 如下： 

F(l) ||y° Ae^dx+i^Ae-^dx *>0 

例 5e 我们来重新考虑例 4e, 从 A 地传送一个二值信息到 B 地. 当信息为1 
时，传送2,当信息为0时传送 -2. 然而，通信嗓声 iV 不再是标准正态随机变量， 
而是参数为 A = 1的拉普拉斯随机 变量. 假设如果在 B 地收到况信息如下 解码： 
如果那么认为是1; 

如果 i? < 0.5, 那么认为是 0. 

这种情形下，如果噪声为参数 A=1 的拉普拉斯随机变量,那么两类错误的概率如 
下 

P{ 错误 | 信息是 1} = P { N < -1.5} = |e- 15 » 0.1116 
P{ 错误I信息是 0} = P { N > 2.5} = |e~ 2 6 « 0.041 
将此结论与例 4e 对比，可以发现，嗓声为参数为 A = 1的拉普拉斯随机变童时的 
错误概率要大于为正态随机变童时的概率 • ■ 

①有时也称为双指数 a 随机变量. 














—个年龄为力的非吸烟者能活到年龄 B 的概率 （>1 < S) 为 
P{ 年龄为 A 的非吸烟者能活到年龄 

= />{ 非吸烟者的寿命> s| 非吸烟者的寿命>^}= U:((】)) 

exp {- f A„(t)dt} 

- X —^ -利用 (5.4) 

exp {- 乂 A„ (⑽ } 

= exp {~ J A \(*)也} 

而根据相同的原因，对应的吸烟者的概率为 
P{ 年龄为4的吸烟者能活到年龄 S} 

= exp{-^ A,(t)dt} = exp { - 2 乂* A„(t)d*} = [«*P { _ 乂 、⑷ dt}” 
也就是说，对于两个年龄相同的人来说，其中一个吸烟，另一个不吸烟，那么 
吸烟者能存活到一个给定年龄的概率是非吸烟者的相应概率的平方(而不是—半). 
举例来说，如果 A„(t) = 1/30,50<4^60,那么一个50岁的非吸烟者能活到60岁 
的概率是 e- 1 /* « 0.7165, 而吸烟者的相应概率为 e- 2 / 3 .« 0.5134. ■ 


5.6 其他连续型分布 

5.6.1 r 分布 

如果随机变量具有密度函数 

rAe-^CAa ;) 0 - 1 

/(*)=! ~ w 







利用公式 (6.1) 
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5.7 随机变置函数的分布 

当知道一个随机变量的概率分布后,经常会感兴趣于求它的一些函数的分布. 
比如,假设我们已经知道了 X 的分布，需要计算 g ( X ) 的 分布. 要做到这一点，需 
要将事件 g ( X)‘ v 表达为 X 属于某集合的形式，我们将通 过一些 例子阐述这点 • 
例 7 a 令 X 为（0, 1) 上服从均匀分布的随机 变量. 我们可以如下得到随机变 
量 y = X "的分布.对于0 < | / < 1,有 

F Y (y) = P{Y <y} = P{X n <»} = P{X< y""} = F x (y 1/n ) = V 1/n 


这样, F 的密度函数为 


油 )= { 广 


0<y<l 

其他 


例 7 b 如果 X 是一个连续型随机变量,其密度函数为/ X ,那么 y = X 2 的分 
布可以如下得到，对于 W >0, 有 

iV ( y ) = P{Y ^ y } = P { x 3 < y } = P {- y/y < X ^ = Fx ( y / y )~ Fx (- y / v ) 

求导 可得： fy (. y ) = 2 ^[/ x (^) + fx (- y / v ) lv >0. ■ 

例 7 c 如果 X S 有密度函数 / x , 那么 y = | X | 的密度函数可以如下得到，对 

于 y > 0,有 

Fy ( y ) = P{Y < y } = P {| X | <»} = P{-y < X < »} = F x { y ) - F x (- y ) 







■ FV ( i /) = l , 均有 / y (») = 0. □ 

例 7 d 设久 为一非负连续随机变量，其密度函数为/，令 y = A •'计算 y 的 


密度函数 j Y {y). 

解 ：令〆 sc) = a： n ，那么 

g~ l {y) = v 1/n 

利用定理 7.1, 可得 

/y(y) = i» 1/n - 1 /(v 1/B ) 

当 n = 2时， i 

My) = 2^/(V») 

这与例 7b 的结论是一致的（因X > 0). ■ 

小 结 

一个随机变量X称为连績型的，如果存在一个: r 的非负函数 /( 称为密度函 
教), 满足： 对于任一集合丑，有 
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P{X e B } = J B f(x)dx 

如果 X 是连续型的,那么其分布函数 F 在 /Or) 的连续点处可导，且 



连续型随机变量X的期望值定义 如下： 

E[X\ = J^xf(x)dx 
对于任一函数3,有一个有用的恒 等式： 

E\s(X)] = l"j(x)f(x)6x 
正如离散型情形一样，随机变量X的方差定义为 如下： 
Var(X) = fi[(A--B[X]) a ] 


随机变量X称为服从区间 (a,6) 上的均匀分布,如果其密度函数为 
/ 1 *<x<6 


/⑻： 




其他 


其期望和方差分别是 

随 机变量 X称为服从参数为 m 和^的正态随机变量，如果其密度函数为 

/(®) = - 00 < * < oo 

可以证明 


a 2 = Var(X) 


如果 X 服从均值为 M 、 方差为 cr 2 的正态分布，那么如下定义的 Z : 

Z = ^ 

也是服从正态分布的随机变量,其均值为0,方差为 1. 这样的随机变量称为标准正 
态随机变量. 有失 X 的概率可以通过标准正态随机变量 Z 进行计算，而 Z 的分布 
函数可以通过査表 5.1 或从网站上得到. 

参数为（|»， P ) 的二项分布，当《足够大时，可以近似为均值为 np , 方差为 
np ( l - p ) 的正态分布 • 

一个随机变童称为参数为 A 的指數随机变量，如果其密度函数为如下 形式： 



/(*) = 


[A— 

1° 


x>0 

其他 


其期望值和方差分 别为： 

Var(X) = -l 

一个只有指数随机变量才具有的重要性质是无记忆性，也即对于正数 s 和 t, 有 


P{X >« + t|X>t} = P{X > s} 

如果义 表示某个零件的寿命，那么无记忆性就说明了对任意 t, 年龄为 t 的零件的 
剩余寿命同一个新的零件的寿命的分布是一样的 • 

令X为一个非负连续型随机变量，其分布函数为 F, 密度函数为/,那么函数 


m = T^W) t>0 

称为 F 的危隆牟函数，或者失效率函数.如果我们认为X是某个零件的寿命，那 
么对于一个很小的 值出, a ⑴ dt 进似为年龄为 t 的零件在 dt 时间内会失效的概率. 
如果 F 是参数为 A 的指数分布，那么 

A(«) = X t > 0 

另外,指数分布是唯一的失效率为常数的分布. 

一个随机变量称为参数为 （a, A) 的 r 随机变童，如果其密度函数等于 


/W- 


Ae-^tAa )"- 1 


*>0 


rh) 称为 r 函数，定义为 

r(o) = 厂 e- x x a ~ l 6x 

T 随机变童的期望和方差分别 如下： 

寧卜； Var(Jf) = ^ 

随机变量称为服从参数为 （a,6) 的<9分布，如果其密度函数为 
常数 B(a,b) 的定义 如下： 


B(a,b) = I 



f 能是一个概率密度函败么？如果是，求 c •如果 /(a：) 为如下的函数呢？ 



4. 设随机变量X表示某个电子设备的寿裔（单位：小时)，其密度函数 如下： 



(a> 求> 20}; (b)X 的分布函数是什么？ 

( C )6 个类似的设备中，至少有三个寿命超过15小时的概率是多大？其中作了什么假设？ 
5. -个加油站每周补给一 次油. 如果它每周的销社(单位:千加仑)为一随机变氬其密度 




























































SD(X) = V^(X) 

为 X 的标准差•若久的方差为〆，求 SD(oX + 6). 

8.令X为取值为0到 C 之间的随机变童，也即 P { O ^ X ^ c } = 


Var(X) < c*(a(l-a)J 其中 a = 


9.设 Z 为标准正态随机变置， 证明： 对于; r > 0,有 

(a) P{Z >*> - P { Z < -*}; (b) P {\ Z \ > *} ■ 2 P{Z > *}-, 

(c) P {\ Z \ < x } = 2 P{Z < x }- l . 

10 . 令/㈤表示参数为 p 和 d 的正态随机变量的密度函数，证明和 M + 为该函数 
的携点，也即证明：当* = /*-<^成 + ® ■时 /"(*) = 0. 

11. 令 Z 为标准正态随机变量， S 为可微函数，其导函败为 
(«0证明£^(别=丑兩⑺1 

(b) 证明 £[^ +1 ] = «£[2»- 1 ] 

⑷求 E [ Z *) 

12. 设X是参数为 A 的指数随机变量，利用理 论习) ■ 5中的等式，求出 B [ X 2 ]. 

13. 设某连续随机变量的分布函数为则满足 F(m) = 1/2的 m 称为这个随机变量的中位 
数.也即，随机变纛取值大于中位数的概率与取值小于中位败的概率是一样的.当随机变 
置 X 廉从以下分布时，求其中 位败： 

⑷在 (0,6) 区间上均勻分布： (b) 参数为/X 和^ 的正态分布, 

(c) 参数为 A 的指数 分布. 












































第 6 章随机变量的联合分布 

6.1 联合分布函数 

I止，我们仅仅探讨了单一随机变量的概率分布，然而，我们经常还对 








mass function) 可以这样方便地定义： 

p{x,y) = P{X = x,Y = y} 

通过 P(x,y) 可以得到X的分布列： 

pxO=) = P{X = a:} = ^2p{x,y) 

类似地， 

Py(v) = ^p{x,y) 

*：p(*.»)>o 

例 la 坛子里有 3 个红球 , 4 个白球，及5个球，从中随机取3个球.令 X 
和 y 分别表示取出的红球数和白球数,那么义和 y 的联合分布列 p{i,j) = P{X = 
i,Y^j) 计算 如下： 


—)=©/« = 盖 

^=©( S / ra =| 


刺 -wo 晶 
齡 (M?)= 蟲 

齡 ® m/avi 

抑，。 )=©©/©= 盖 


•© ffl / Cs 2 )^ _=®/ ra =^ 


这些概率也可简单表示成表 6.1 的形式.读者会注意到,； f 的分布列可以对行 
求和得到，而 y 的分布列可以通过对列求和得到.既然 a •和 y 各自的分布列都 
出现在这样表格的边缘，因此,它们又常常分别称为 a ■和 y 的的边缘分 布列. ■ 


表 6.1 p{x = *,y =j} 


0123 

行和： P{X = o 

° 

10 40 30 4 

220 220 220 220 | 

^ ^ 0 


'B 

i 盖 。- 


3 

4 ° ° ° 

^6 

列和： p{y = j> 

220 ^0 K0 2^ 
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例 lb 假设某个社区内，15%的家庭没有小孩，20%的家庭有一个小孩，35% 
的家庭有两个小孩, 30%的家庭有3个小孩.而且,进一步假定每个家庭里的每个 
孩子为男孩或女孩的可能性是一样的（且独立).如果从这个社区内随机抽取一个 
家庭，令 S 表示这个家庭的男孩数，令 G 表示该家庭里女孩数,那么它们的联合分 
布列如表 6.2 所示. 

由这些概率得到： 

P{B = 0,G = 0} = P{ 没有孩子} = 0.15 
P{B = 0, G =1} = P {1 个孩子且为女孩} 

= P{1 个孩子 }P{1 个女孩 |1 个孩子 } = 0.20 x ! 

P{B = 0 ,G = 2} = P{2 个孩子且都为女孩 } 

= P{2 个孩子 }P{2 个女孩|2个孩子 } = 0.35 x (I) 2 
表 6.2 中其余概率的验证留给读者. ■ 


表 6.2 P{B=»,G=i} 






可以从另一个角度来理解连续密度函数的定义,利用 （1.4) 式,可得到公式 
P{a<X<a + da,b<Y<b+db} = V) d® d» « f(a,b)dadb 

其中 da 和 d& 很小，且 /(x,y)* (o,6) 处连续.因此, f(a,b) 表示为随机向量 (X,Y) 
取值于 (a, 6) 附近的可 能性. 

如果X和 y 为联合连续的，则它们各自都连续.它们各自的密度函数可以如 
下 得到： oo 

P{X eA} = P{X € A,Y 6 (-oo,oo)} = J A J f(x,y)dydx = fx{x)dx 

其中 

fx、x) = j°° f(x,y)dy 

叛 X 的密度函数.类似地, y 的密度函数 如下： 

Mv) = j 

例 ic 设 x 和 y 的联合密度函 数为： 

i 2e _ *e _2v 0<® <oo,0<y<oo 
0 其他 


P{X >l,y<l} = jT 1 jf°° 2e_*e- 知 dx dy 

=j: 2e- 2 »(-e- x |r)dy = e- 1 jf 1 2e_ 如 dy = ell - e_ 2 ) 

(b) 

P{X <Y}= JJ 2e-*e- 2 » dx dy = jT°° d®dy 

(*,»)：*<» 

= 厂 2e- 2 »(l - e~ v )dy = jT°° 2e_ 2v Ay - [ 2e~ 3 * dy = 1 - | = 


P{X <o> = jf a jr° 2e— 相 e_* dydx = J\- x dx = l-e~ a 



(a) 求常数 c; (b) 计算久和 y 的边缘密度 函数； 

⑷求原点到该点的距离 D 小于等于 a 的 概率； ⑷计算 E [ D ). 
解： （a) 利用密度的性质 


可得 



我们可以利用极坐标计算的值.也可以用更简单的办法，注意到 
它表示的就是半径为丑的圆的面积，因此等于 nii 2 , 从而 

c= ^ 


<b, 一如 

= y c dy 其中 c = 

当* 2 > fi 2 时,它等于 0. 利用对称性可知, y 的边缘密度为 

Mv) = { nIP 

[0 » 2 > fl 2 

( C ) 原点到该点的距离 d = Vx ^ Ty ^ 的分布函数可以如下得到，对于 o < 










=// /(x,y)dydx = ^ If dydx = ^ = ^ 

**+V»$a* x»+»a«o* 

其中用到了事实 If xa+yt<a3 dydx 为半径为 a 的圆的面积,其值为恥 2 . 
(d) 从以上 (c) 可以得到£>的密度函数为 



E[D]:= hC a2Aa= f 


例 le X和 y 的联合密度为 



求随机变童 X/Y 的密度函数. 

解： 先来计算 X/Y 的分布函数.对于 a > 0,有 

Fx/y(a) = P{p < a} = JJ e -(*+»)d®dy = 竹 ) dady 

=r a--«)^-*»-{- e - ,+5 7rr}ir = 1 -士 

对 F x/Y (a) 求导可得到 X/Y 的密度函数 f x/Y (a) = l/(a+ 1) 2 ,0 < a < oo. ■ 

我们也可以用和 n = 2 时同样的方法定义 n 个随机变量的联合 分布. 比如， n 
个随机变童 X U X 2 , …， X n 的联合分布函数定义为 



而且， X u ...，X n 称为联合连续的，如果存在一个函数 f(x ir -,x n ), 对于 n 维空 
间里的任意集合 C7, 满足下列 条件： 

P{(Xi,X 2 ,- - ,X n )eC}= J / …… da;„ 

(2W n )€C 

/(xi, - -, a:„) 称为 X! ，…， X n 的联合密度函数.特别,对于71个实数集木, A 2l - ;An, 













P{X € A , Y € B } = P{xe A } P{Y € B ) (2.1) 

也就是说,如果对所有的>1 和亊件五 A = {X e 和= {y € S} 是独立 
的，那么随机变量X和 y 独立 • 

利用概率的三条公理可知，公式 (2.1) 成立当且仅当对所有 a, 6,有 
P{x = P { X ^ o}P{y ^ 6} 

因此,利用 X 和 y 的联合分布函数 F, 我们有，如果 

F(o,6) = Fx ( a ) F Y ( b ) 对所有的 a, 6成立 

则 x 和 y 独立.当 x 和 y 为离散型随机变量时,独立的条件 (2.1) 等价于 

p { x , y )= px { x ) pY ( y ) 对所有的 a：, » (2.2) 

上述结论成立是因为如果 （2.1) 成立,那么令 A 和 B 分别表示单点集 A = {*} 和 
B = {y}, (2.1) 式就变成了 （2.2) 式反之，如果 （2.2) 式成立,那么对任意集合 A, fl, 
有 

P{X €^,y€B} = = E ⑻ Pr ⑼ 

y € Bx€A yeBxeA 

=E py ( v ) 系 pxOO = 阶 e B } P { xeA } 

这样就证明了公式 （2.1) 式的成立 • 

在联合连续的情形下,独立的条件等价于 

/(*,y) = fx ( x ) /y(y) 对所有的 a：, y 

因此，粗略地说，如果知道其中一个变量的取值并不影响另一 个变量 的分布，则 
两个变量就相互独立.不独立的随机变童称为相依的 (dependent). 

例 2a 考虑进行 n + m 次独立重复试验，每次成功的概率为 P， 如果X表示 
前 n 次试验成功的次数, y 表示后 m 次试验成功的次数，那么X和 Y 是独立的， 
因为知道了前 n 次试验中成功的次数并不影响后 m 次试驗中成功次数的分布（因 
为假设试验是独立 的). 亊实上，对于整数 a: 和 y， 有 
P{X = x,Y = y } 

= Qp»(i - p) m ~ v 0<*<n,0<y<m 
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例 2b 假设某一天内进入邮局的人数为服从参数为 A 的泊松分布， 证 明：如 
果每个进入邮局的人为男性的概率为 p, 为女性的概率为1 -p, 则进入邮局的男人 
数和女人数是相互独立的泊松随机变量，它们的参数分别为 Ap 和 A(l-p). 

解：令 A •和 y 分别表示进入邮局的男人数和女 人数. 为证明X和 F 独立， 
只需证明 （2.2) 式成立.利用全概公式， 

P{X = i,Y = j] =P{X = i,Y = j\X + Y = i + j}P{X + y = i + j} 

+ P{X = i,Y = j\X + Y^ i + j}P{X + y#i +i} 

(读者应该注意到该公式仅仅是公式 P(E) = P(E\F)P{F) + P(S|F C )P(F C ) 的特 
例 .） 由于 P{X = i,Y = j\X + Y fti + j} 显然为0,我们可以得到 

P{X = i,Y = j} = P{X = i t Y^j\X + Y = i + j}P{X + Y=^i+j} (2.3) 

现在，因为 x + y 是进入邮局的总人数,根据假设 

P{X + Y = i + j}^ (2.4) 

而且，在给定 i + j 人进入邮局的情况下，既然毎个进入邮局的人为男性的概率为 
P, 因此，正好有 i 个是男性（且正好有个女性）的概率 f -矽，即 

p{x = <,y=j|x+r=<+,} = (<+(1 - P 户 （2.5) 

将公式 （2.4) 和 (2.5) 代入式子 (2.3), 可得 

. p)y . (2 . 6) 

因此 

P{X = *}= e-*(K tA(1 ~ P)]i = e-^^- (2.7) 

类似地有 

P{Y = j} = e-MH) tA(1 ~ P)li (2.8) 

(2.6) 式、 (2.7) 式和 （2.8) 式说明了所求 结果. ■ 

例 2c 某男和某女决定在某个地点 见面. 如果每个人到达的时间是独立的，且 
在中午12点到下午1点之间均匀分布,求先到的人需要等待10分钟以上的概率. 


解：令 X和 y 分别表示该男和该女到达的时间，以分钟为单位，以中午12点 





=2 rr _i °Q、 ds= — 办 -m ■ 


下面的例子是一个有关几何概率的古老问題.它首先由18世纪的博物学家蒲 
丰提出并解决,通常称为蒲丰投针问题 • 

例 2d (蒲丰投针问题）桌面上画着一些平行线，它们之间的距离都是 A 向 
此桌面上随意投拥一长度为 L 的针,其中 i 问此针与桌面上的某一根平行线 

相交的概率是多大（另一种可能是此针正好在某两条平行线之间)？ 

解： 从针的中点向距离该点最近的一 
条平行线引一条垂直线，设这条垂线的长 
&为 X . 又设针与这条垂直线的夹角为 
这样，垂直线、平行线以及针所在直线会 
形成一个直角三角形（见图 6.2). 如果直 



角三角形的斜边长小于 i/2 时，针会与这 
一条直线相交.也即，若 


占<金 * 


图 6.2 蒲丰投针 


则针与这一条平行线相交.注意X是一个取值于0到 D/2 之间的随机变量， 
0 是一个取值在0到 n/2 之间的随机变量.关于X和0,很自然地假定它们是相 
互独立的，并且在各自取值范围内均匀分布•因此 


p{x<|co8fi}= JJ fx(x)fe(y)dxdy 

r 广' _ = 凫 O vAv =告 ■ 

例 2e (正态分布的特征）令X和 F 分别表示子弹的禅着点与靶心目标的水 
平和竖直偏差，且假设 

1. X和 y 为具有可微密度函数的独立的连续随机 变量； 

2. x 和 y 的联合密度 /(x,i/) = /x(*)/y(v) 作为 （*，y) 的函数只依赖 ^+ v 2 
的值 • 

更直观地说来，第2个假设说明了子弹落在： r-2/ 平面的概率取决于弹着点与 
目标点的距离,而与弹着点相对于目标的方位无关.第 2 个假设的另—个等价的说 
法是联合密度函数相对于旋转是不变的 • 

下面的说法是令人感兴 趣的： 由上述两个假设可推得叉和 y 为正态随机变 



/(*.») = /x(*)/y (») = gix 2 + y 2 ) 
(2.9) 式两边对 x 求导，可得 

/x(*)/y(») = W(* 2 + I/ 2 ) 
用式 （2.9) 去除(2.10)，得到 

f x ( x ) 2 x ^( x a + y 2 ) 

S(x 2 + y 2 ) 


f'x(x) ^ + 

2 xfx(x) giafl+y 2 ) 


( 2 .11) 式的左边仅与 a ： 有关，而 （ 2 _11) 式的右边仅与 x 3 + y 2 有关.由此可以 
推出左边对任意: r 来说都是等 值的. 为了证明这点，考成任意 n ，: r 2 ，取此於使 
其满足条件 ®? + d 4 +沾，那么，从 (2.11) 式可得 

f'xM M + Vt ) ^ + fkM 

2x x f x ( x x ) - g ( x > + yl ) - 9 (马+ 诏) * 2® 2 / x (* a ) 

因此， ； 

黯 =c 或 £(Jn/x(*)) = c* 


ln/x(*)«a+_ 或 fx(x) = fce 6 **/ 2 
由于 !T 00 fx(x)dx = l,c 必然为负数，可将 c 写成 c = -1/<7 2 , 即 
f x ( x ) = ke - a ^ 


也即，； f 为一正态随机变量，参数为 /i = 0和 《 t 2 . 类似地，对于 fy ( y ) 可证明 
編 = 

再利用第二个假设可知 P =护.因此 x 和 y 为独立同分布的正态随机变童，其 
参数为 M = 0 和 < r 2 _ ■ 

X 和 V 相互独立的一个充分且必要的条 件是： 联合密度函数（离散情形下为 
联合分布列） f ( x , y ) 可以分解成两部分，其中一部分仅与; c 有关，另一部分仅与 y 

有$_ .. … : 

命題 2.1 连续型（离散型）随机变量 X 和 F 相互独立，当且仅当其联合 
密度函数（联合分布列）可以写成 

fx,Y(x ， V) = Hx ) g ( y ) - oo<x< 00,-00 <y<oo 




证明： 我们给出连续情形下的证明.首先注意到独立意味着 x 和 y 的联合 
密度函数等于其各自边缘密度函数的乘积，因此，当 x 和 y 独立时，上述因式分 
解是成 立的. 现在,俚定 f x , Y {x,y) 具有下列分解式 
fx,v(x,y) = h{x)g(y) 

利用联合密度函数的性质可知 

1 = J J fx,y{x,y)6xdy = j°° h(x)dx J g(v)dv = CiCa 

其中 G = n o M*)d*.C' 2 = /!^(V)d y . 这样 

fx(x) = J fx,v(x,y)dy = Cihix) fy(y) = j°° fx,Y(x,y)dx = Cig{y) 
又由 0(^ = 1， 可以得到 

/x.y (*,») = Sx{.x)f Y {y) 


这两个随机变童是否独立？如果联合密度函数如下呢？ 

(24xy 0<x<l,0<j/<l,0<x + y<l 

/( ^ )= \o ^ 

解： 第一种情况下,联合密度函数可分解因式，因此随机变量 x 和 y 相互独 
立（其中一个为速率 A = 2,另一个为速率 A = 3的指数分布).第二种情况下，因为 
联合密度函数非零的区域不能写成 x€A,yeB 的形式，联合密度函数不能进行 
因式分解,因此，随机变量 x 和 y 并不独立.通过如下方式更容易看出这一点，令 


fi 0< x 

={o 其他 


取V) 

那么联合密度函数可写为 

/(*.») = 24xv/(x,y) 

很显然，以上不能分解成分别仅与: r 和仅与 y 有关的两个 因子. ■ 

当然，对于两个以上的随机变量，也可以给出独立性的 定义. 一般来说， n 个 
随机变量 X U X 2 , -,Xn 称为独立的，如果以下条件 满足： 对于任何实数集合木， 




P{Xie Ai,X 2 € A 2 , , Jf„ € a,} = JI P{Xi € Ai} 

首先,可以证明上述条件等价于 

/»{& < a lt X 2 < 处， … ， X„ < o„} 

=JJ P{Xi < Oi } 对所有的 （*1,02, …， On 

最后，对于无限个随机变量的独立性可以这样定 义的： 如果其中任意有限个随机变 
量都相互独立，那么称这无限个随机变量是相互独立的. 

例 2 g (计算机怎样选择随机子集)①大部分计算机都有内置程序，用以产生或 
模拟 （0, 1) 上的均匀随机变 量的值 （或称随机数).作为应用，计算机很容易棋拟示 
性随机变量（伯努利随机变量).设 J 是一个示性随机变量，即 
P{7 = l}=p=l-P{/ = 0> 

计算机产生一随机数 1/((0, 1) 上的均匀随机数)，令 



就棋拟得到示性随机变量 h 现在我们希望从 { l ,2,.-, n } 中选择 ife 个对象，使得 
(^)种不同的组合都有相同的机会被 取上. 我们用 （ H .. , i „)， 其中心=喊 1(0 
表示数字:/没被选上，1则表示选上 )， i = 1,2, •••,»», 幼= Jb 表示 ifc 个对象的 
一种选择结果.令 ( h ,--, In ) 表示 fc 个对象的一个随机选择,且使得 { l ,2,-.., n } 
的 © 种不同的*个元素的组合都具有相同的机会被选中，即的分布 
列满足 

P{(h, ••,/«) = (<!,- •,<«)} = l/(j) 

其中 L …， i n 取值于{0,1 }， = 利用条件概率公式 

- -，/») = (ii, … ,*»)} 

=P{Ix = h}P{(h, = ,in)|/i = <i} 

=P{Ii = *i}P{/a = i 2 \Ii = *i}P{(/3, • • , A») = (*3. • • • . *n)|A = *2} 

=P{h = ii}P{h = * 2 \h = *1 )^(/3 = *3|/i = ii,/ a = *3}-- 

P{/n = *n|A = *1 ， … ， in-1 = *n-l} 

①此例在讲解顺序上做了调螫，作者先讲述亊件棋拟的方法，再在后面补充亊件的概率的求法.译者 
先说明亊件的概率，然后讲述棋拟方法，此法较符合大家的思*习惯.——译者注 




其中 , h = ii 表示，比如，当= 1时,从集合 {l,2-.-,n} 中随机地抽 fc 个对象,1 
被抽中这一事件.因此， P{h = 1} = k / n , P{h = 0} = (n _ k )/ n . 现在求条件分布 
P{h = ia|ii ^ 

P{I 2 = l|/i = 1} = P{h = 0|/i = 1} = 


上式中第一个概率是 1 己经选中的情况下 ，2 被选中的 概率. 由于1己经选中，剩 
下还需选 - 1个对象，在{2,…， n} 中2被选中的概率显然是 （fc - 1)/(» - 1). 综 
合以上分析,对于 h , h 的分布，我们有如下 结论： 



有了上述的条件概率公式，我们就可以利用棋拟的方法棋拟上述 A ，…，二.首先 
产生 n 个相互独立的 (0,1) 上随机数 U U …， U n . 定义 




r. . k-(h + --- + h) 

/ 1+1 = 1 ^ ，+1< —^~ 

卜其他 

/-I 1 : 

I其他 

如此产生的 (/i, 其条件分布就是所要求的条件分布,且其联合分布满足 

P{(h, • = l/(fc) 




注释上述提供的方法并不需要很多的内存 .10.1 节将介 绍一个 更快的算法， 
但要求更多的内存 （10.1 节介绍的算法利用随机排列的后面 jfc 个元素). ■ 

例 2h 令 X ， y , Z 服从 （0,1) 上均匀分布且相互独立，求 P{X^ YZ). 

解：因为 

fx,Y,z{x,y t z) = fx(x)fy(y)f z (z) = 1 0 < z < 1,0 < y ^ 1,0 < z < 1 

我们有 

P{X ^YZ} = J j J" fx,Y,z(x，y，z)dxdydz = J J J ^xdydz 

=l!l! {i - yz) dydz= i 1 ( i -i) dz= i ■ 

例 2i (半衰期的概率解释）令 iV ⑷表示某矿物中放射性裂变物质在时刻 t 的 
含量.所谓半衰期是一个由经验确定的量.放射性物质随时间的变化规律 如下： 
N{t) = 2-*f h N(0) t>0 







现在我们来讨论质子的蜕变问题.关于质子的蜕变问厘是有所争论的.根据一 
种理论预测质子的半衰期为 10 30 年.为了对此理论进行检脸,有人建议观察大 
量的质子,看它们在一两年内有没有規变.(显然不可能观察 10 30 年之后再看它们是 
否有一半蜕变， ） 现在假定观察 N(0) = 10 30 个质子，观察期为 C 年.利用确定模 

mm\ _ e/h 

N{0) - N(c) = h{l- 2-«/ fc ) = - ^ 

« lim - ~^ —由于吴 =10 -30 w 0 

=^( 02 -** In 2) 由洛必达法则 


例如，在 2 年中预计将会有 1.3863 个质子蜕变.但是如果在2年内没有观察 
到一个质子蜕变，那对于原来的假设 (10 30 年中会有一半的质子蜕变）是一个极大 
的打击. 

现在我们用概率模型来比较这一结论,我们观察/I个质子,共观察 C 年.由于 
h 相当大 (10 30 ), 毎个质子在 C 年内说变的概率非 常小. 这样，在 C 年内说变的质 
子数具有泊松分布，其参数 = 2~«/ fc ) « 1/ r . 这样 

i>{0 个蜕变 } = e- cto2 = = 1/2 6 


P{n 个蜕变 } = 2 飞”" n >0 

这样，尽管在2年内蜕变的质子平均数^ 1.3863( 由确定性棋型得到)，但利用 

随机模型得到2年内没有观察到质子蜕变的概率为 1/4. 这个结果不能推翻原来的 


注鞸独立性是一个对称关系 .久和 y 相互独立是指它们的联合密度(在离散 
情况下的联合分布列）是它们各自密度（概率）的乘积 • 因此，义独立于 F 与 Y 独 
立于 x 或者 x、y 相互独立是完全相同的 意思. 我们在考虑 x 是否独立于 y 的 
时候，必须考察 y 的值的改变,是否会改变X的条件 分布. 有时候，我们不能很直 
观地作出判断.伹是若把X和 y 的地位对调过来，考虑 y 是否独立于X,此时问 
题变得十分明显.下面的例子就说明了这一道理. 

例 2j 名为 “Craps” 的掷骰子游戏规定每次抛掷两颗骰子，若第一次两颗骰 
子的点数之和为4,此时玩家必须继续抛掷这两颗骰子，直到出现点数之和为4或 


①在第8章中，我们将介绍大数攤.大数律正好说明 ® 〜 p = 2_*/ 2 •由于 JV ⑼和況 ⑷都是 
很大,可以认为 N ( t ) = 2-*/ fcjv ( 0 ).—— 译者注 






亊实显然没有提供任何关于在前 n 个随机变量之间的顺序的 信息. 亊实上，利 
用对称性可得，这 n 个随机变量里，任何一个为最大值的可能性都是一样的，因此 
P^jAn+i) = P ( A n ) = 1/n. 总而言之,烏和^, +1 是相互独立 亊件. ■ 


可知，要证明 X u --, X n 的相互独立性，可以通过序贯的方式加以 证明. 也即，我 
们要证明这些随机变量是独立的，只需证明以下的一系列事实 
x 2 adt 于 Ai 
x 3 独立于 x u x 2 


X n 脏于 Xi ,- -, Xn - 






















6.3 独立随机变量的和 


当随机变量 A •和 F 独立时,从它们的联合分布求出 X + Y 的分布常常是很 
重要的.假设 A •和 y 是相互独立的连续型随机变量，其密度函数分别为 /x 和 /y， 
那么 x+y 的分布函数可以如下 得到： 

FxMa) = P{X + Y^a}= jj fx{x)f Y {y)dxdy 

=J J /x(*)/y(y)d®dy = J j ^ fx(x)dxf Y (y)dy 
= J ° 0 gg Fx ( a - y ) Mv)dy (3.1) 

分布函数 F X+Y 称为分布函数 F X 和 F y (分别表示X和 y 的分布函数）的卷积 
(convolution). 通过对 （3.1) 式求导，我们可得 X + F 的密度函数 fx+Y 如下： 
■^+ 咖 ) = 去 / Fx(a~v)fY{y)dy = J ^F x (a-y)fy(y)dy 

= J 0 ° oo fx ( a - y ) fY { y)dy (3.2) 

6.3.1 均匀分布的随机变量 ® 

对于两个相互独立的， (0,1) 上均匀分布的随机变量,其和的分布是不难求的 • 
例 3a (两个独立均匀分布随机变量的和）设X和 r 为独立随机变量，都服 
从 (0,1) 上均匀分布.求 x+y 的概率密度. 

解： 因为 

fx(a) = /y(a) = 

利用 (3.2), 我们可以得到 

fx+Y、a) = j。fx(a-y)dy 

先设0 < a < 1,于是 * a 

/x+y(a) = / dy = a 



当 1 < a < 2 时,类似地可得 

fx+r(a) = jf 




① 本节作者只讨论了 （o,i) 上的均匀分布的随机变置，但不«推广到一般情况_——译者 i 

② 这是因为当 l»>a 时,/ x(o- V ) = 0; 当 0<y<a 时, /x(<»-V) = l. -译者注 
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: < 2 - a 1 < a < 

I 。 其他 


X + Y 的密度函数的形状见图6.3,其 
密度函数像一个拥在 a ； 轴上的三角形， 
围 6.3 三角分布 ^ X \ Y 的分布又称为三角分布 

( triangular ). ■ 

现在假定 X u X t ，…， X „ 为独立同分布的 (0,1) 均匀随机变量序列•记 


我们用归纳法证明 
由于上式当 n 


F n ( x ) = x n / n \, 0<*<1 
时成立.现俚定对《 - 1上式也成立，即 
= *"- l /( n - l )!, 0<*^1 


利用 （3.1) 式可得 



+ X n 


F n ( a r) = jT 1 f' n _ 1 (*-y)/x n (»)d|, 

= j^wl^ x -y )n - ldv 由归纳假设① 

= 笞， 0<*<1 


利用 F n ( x ) 的这个表达式可以得到一个十分有趣的结果•设 X U X 2 、 …为一 
列独立同分布的 (0,1) 上的均匀随机变 Jt 我们需要求出下列随机变: S ： iV 的期望 


N = min{n : _Xi + …+ 叉” > 1} 

注意到 AT > n 的充要条件为 A +…+ < 1,这样 

P{N > n } = P{Xi + - + X „<1} = 凡⑴ =1/ n !, n >0 
由于 P{N > 0} = 1 = 1/0!, 我们得到 


①即 Jo 1 F n - 1 (.x-y)f Xn (yyiy = Io ^»(*-»)dy = /o* F n -i(x-y)dy = 

—译者注 




这样，总和超过1的均匀随机数的（独立同分布的 (0,1) 均匀随机变量）最小个数 
的平均值为 e. 


6.3.2 r 随机变置 


回顾 r 随机变童具有如下形式的密度 函数: 



其中 C7 为一个不依赖于 a 的常数,但因为上式为一概率密度函数，因此积分值等 
于1，这样就确定了 C 的取值.我们得到 



利用命题 3.1 及归纳法，很简单地可以 得到： 如果= 1，…，《为独立 r 随 
机变量，其参数分别为 ⑻， A }， i = 1，. . ， n ， 那么 Er=i^i 为参数 (E? = 1 *i ， A) 的 r 
随机变童,我们将其证明留作习题. 

例 3b 令 X U X 2 ，…， Xr^n 个独立指数随机变董，其公共参数为 A. 由于 
参数为 A 的指数随机变量同时也是参数为 （1,A) 的 r 随机变量，这样通过命题 3.1, 
可得 A + x 2 +…+忍为一参数为（《， A) 的 r 随机 变量. ■ 

如果 A, z 2 ，…， z„ 为相互独立的标准正态随机变量，那么 y = 称为 





当 n 为偶数时, r(n/2) = [(n/2) -1] !，而 n 为奇数时， r(n/2) 可以反复利用关系式 
m = ( t - i ) r(t - 1 ) 进行计 IT , 再利用之前得到的结果 r ( i / 2 ) = ^ 可以得到 


r ( n /2) 的值. [举例来说， r (5/2) = | r (|) = || r ( i ) = |^ i .] 

x 2 分布在实践中经常作为以下问题中的误差的平方和的分布 出现： 如果某人 
试图击中 n 维空间里的目标，其中每个方向上的误差为独立标准正态随机变量，则 
各个方向上的误差的平方和的分布为自由度《的 x a 分布.它在统计分析中也是 
很重要的. 


6.3.3 正态随机变置 

我们还可以利用公式 （3.2) 证明关于正态随机变量的以下的重要结论 • 

命® 3.2 若；= I ，". ， n 为独立随机变量，它们均服从正态分布，各 
自参数分别为 = 也服从正态分布，参数为 

SlU/jj 和 _ 

证明 ：首先 ，令 A ■和 Y 为独立正态随机变量， A " 的均值为0,方差为而 y 
的均值为0,方差为 1. 我们要利用公式 （3.2) 来计算 x + y 的密度函数•设 
1 1 l + «r 2 

c= ^+d 

这样，有 

/x(a-v)M») = ^ ； exp{-^^}^exp{-^} 

= 2^ exp {-^} exp {- c(i,2 ~ 2i/ IT^ ) } 

因此，由公式(3.2)，有 
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忐哪卜嘉 } 哪{阿^} {_ + _ 1 ^) 2 } 办 

= ^^{-2(I^}/I^{-^}^ =Ce ^{--2(IT^)} 

其中 C 的取值不依赖于 a . 上式意味着 X + Y 服从均值为0,方差为1 + <r 2 的正 
态分布. 

现在，假设 A 和 X 2 为独立正态分布随机变量 ，不 的均值为％方差为忒 
* = 1,2. 那么， 

X\ + Xi = <r a ( 尤二只 1 + 於 : 内 )+ 卩 1 +内 

但因为 ( Xx - mOM 服从均值为0,方差为 a { la \ 的正态分布，而 ( X 2 - ii )/< T 2 服从 
均值为0,方差为1的正态分布,利用前面的结果可得 + 巧瓶 

从均值为0,方差为1 + «7?/4的正态分布,这意味着 X l + X , 服从均值为妁 + W， 
方差为 4(1 + o?/^) = oi + al 的正态分布. 

因此，当 n = 2时,命题 3.2 成立.一般情形可通过如下归纳法得到，也即，假 
定对于 n - 1个随机变童时成立，现在考虑《的情形， 

E X «=E X * +X » 

利用归纳假设,服从均值为 YXilH , 方差为 Er=r>? 的正态分布.因此， 
利用《 = 2的结果,可得 ZhXi 服从正态分布,参数为 EIU 和 Er=i^ a - 口 
例 3c 某俱乐部篮球队一个赛季打44场比赛.其中有26场是对甲级队，18 
场对乙级队.假设对甲级队每场胜的概率为 0.4, 而对乙级队每场胜的概率为 0.7. 
假设每场比赛结果都是独立的.近似计算以下事件 概率： 

(a) 该队能贏25场以上比赛： 

(b) 该队胜甲级队的场数超过胜乙级队的场数. 

解： （a) 令和 X B 分别表示该队同甲级队和乙级队比赛获胜场数，注意到 
心和知 为独立二项随机变童，及 

E [ X a ] = 26 x 0.4 = 10.4 Var^) = 26 x 0.4 x 0.6 = 6.24 
E [ X b ] = 18 x 0.7 = 12.6 Var(X B ) = 18 x 0.7 x 0.3 = 3.78 
利用二项分布的正态近似可得, Xa 和 Xfl 都近似服从均值和方差如上的独立正态 
分布. 因此，由命题 3.2, X A + X B 近似服从均值为23,方差为 10.02 的正态分布. 
令 Z 表示标准正态随机变量，我们有 










参数分别为 （n,p) 和 (m,p), 求X + y 的分布 • 

解： 回頋二项分布的知识,根本不用任何计算,我们也可以马上推导出， x + y 
服从参数为 (n + m,p) 的二项分布.这是因为X表示了 n 次独立重复试验中成功 
的次数（每次成功的概率为 P), 同样， F 表示了 m 次独立重复试验中成功的次数 
(每次成功的概率也为 P), 由于假定 A •和 K 独立,所以 X + Y 表示了在 n+m 次独 
立重复试验中成功的次数（每次成功的概率为 P). 这样， X + y 为参数为 (n + m,p) 
的二项随机变量.下面从分析的角度轮证该结论，注意到 

P{X + Y = k } = ^2 P{X = i,Y = k - i } 

i =0 

=g p ^=w=*-<>=g OU - k+i 

其中 q = l- P 且当 j>T •时 ^=0 •因此 
吵 +y “卜 pV — 

最后利用以下组合恒等式便可得到所需 结果： 

m-§(u ■ 











现在利用恒等式 





前式变成 

由归纳法知，命题得证. □ 

6.4 离散情形下的条件分布 

回顾对于任两个亊件 B 和 F， 已知 F 的条件下五的条件概率（假定 P(F)> 0 ) 
定义 如下： 

聊) =鬻 

因此,如果 A ■和 y 都是离散型随机变量,那么很自然地定义已知 Y = y 的条件下 
X 的分布列 如下： 对于所有满足 py(y) > 0的 y, 有 

邮(咖 ) = m 婦寺 p %%； v} =譜 

类似地，也可以定义己知 F = y 的条件下X的条件分布函数，对于所有满足 
Py(v) > 0的 1/,有 

Fx\v(x\y) = P{X < x\Y = y} = [p；qy(a|y) 


由上述定义可知,条件分布与普通分布在概念上是完全一样的，只是所涉及的事件 
都是在 Y = y 之条件意义下的 亊件. 如果 A •和 F 独立,那么条件分布列和条件分 




因此， 


邮律 )=繫-| 及 ^(111 )=^-I - 

例 4b 如果X和 y 为独立泊松随机变量，参数分别为 A: 和 A 2 , 求给定 
X + Y = n 的条 件下久 的条件分布. 

解：给定X + y = n 条件下X的条件分布列计算 如下： 

P{X = k,X + Y = n} 

'' ~ P{X + y = n} ~ 

P{X = k,Y = n-k) P{X = k}P{Y = n-k) 

=~ P{X + r = »}P{X + y = n} 

其中最后一个等式的成立是由于俚定了 X和 y 是独立的.注意到 (.m 3e)X + Y 
服从参数为 A 


P{X = k\X + Y = n} = 


> A x + A 2 的泊松分布，这样 

. . 、 e -^ A ? e-^XS~ k re -^+^)( A 1 + A 2 )»l - 

p{x =* |x+y=n} = -jr-i^fcTL -- J 

_ n! A}AT* . 


也就是说，给定； f + y = n 的条件下的 X 的条件分布为二项分布，参数为 （ n ， 


Ai/(Ai + A 3 )). 

我们还可以讨论联合条件分布，正如下面的两个例子所阐述的 • 
例 4 c 考虑如下的多项 分布： 

P{Xi = n i ,t=l,- t fc} = wil n! 叫 lP V - 


这样的分布列出现在下面的情形 ：进行 n 次独立重复试验，每次试验的第 i 个结 
果发生的概率为 PuZliPi = 1- 随机变量 X u i = l,--,k 分别表示 n 次试验中 
试验结果 M = 1，…， fc 出现的 次数. 现在假设我们已经知道在 " 次试验中，第 j 
个试验结果出现了巧次 ， j = r + 1,…， fc ， 其中 E ；= r + J 巧 = m < n . 由于另外的 
n - m 个试验中每一个结果都必然是第1,…， r •个结果之一，因此，不，… ，不 •的 
条件分布应该是多项分布，其相应的参数为 

/>{第 i 个结果1试驗结果不是 r +1，…， fc 中任一结果 } =衰 ； i = 1 ,… • ， r 
其中 K = ZUiPi 为试验结果为1，… ， r 之一的概率- 

解： 为了 i 证该直观结论，令 m ，…， rv 满足 EU m = n - m ， 那么 
P{Xi =«!,••• , X r = nr | X P+ i = nr + 1 , , X fc = n fc } 

P{Xi = ni, -- ,X fc = n*} »,l?.L iPi 1 - -P^P^V - Pfe* 

= P { X r+1 = n r + l ,-, X k = n k } — (一”二 
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上式分母中的概率计算如下，将试验结果 1,2,.-. ,r 合成一个结果,其相应的概率 
为戽，相应出现的次数为 n-m. 这样，事件 {X r+1 = nr +1 , •••,X fc = n fc } 的概率 
可以看作是 n 次试验中，具有 * - r + 1个结果的多项分布中事件的概率.将上式 
中分子分母相互抵消，可得 




这样结论 得证. _ 

例 4d 考虑《次独立重复试验，每次成功概率为 p, 已知共有 ik 次成功的条 
件下，证明所有可能的 fc 次成功、 n - fc 次失败的順序都是等可能的. 


解: 

的次数， 


我们将要证明，种可能顺序中任一种都是等可能的.令X表示成功 
%虑 fc 次成功、 n-fc 次失败的任一样列，比如, o = 那么 

= 邦 =丄 ■ 

p ㈣ 尸㈣ ( „y (1 _ p)n _ fc ( n) 


6.5 连续情形下的条件分布 


如果 x 和 y 具有联合密度函数 f(x, y ), 那么给定条件 y = |/下, x 的条件密 
度函数定义如下，对于任意满足 fy(y) > 0的 y 值,有 


加翊 I 


为了说明条件密度的实际含义，在上式左边乘以 dx, 右边乘以 (dxdy)/dy, 这样可 

得 


也就是说,对于很小的 dc 和 dy, f X \Y(x\y)dx 表示了在 y 取值于 y 和 y + dy 之 
间的条件下，X取值于 a: 和： c + dz 之间的条件概率. 

利用条件密度,还可以定义已知一个随机变量的取值条件下，关于另外一个随 
机变量的事件的条件概率.也即，如果X和 y 联合连续，那么对任一集合為有 
P{XeA\Y = y} = J^ f X \Y(x\y)dx 

特别地,令4 = (-oo,a], 那么已知 y = 1/的条件下X的条件分布函数 如下： 



fx\Y(x\y)dx 


= P{X<a|r = W } = ^ 

读者应该注意到，上述讨论已经给出了条件概率的较完整的定义，即使条件 Y = y 
是一个零概率事件,相应的条件概率也有较明确的含义. 



求已知 Y = y 的条件下,X的条件密度,其中0 < v < 1. 



例 5b 假设X和 y 的联合密度 如下： 



度同非条件密度是一样的，这是因为在独立情形下， 


当随机变量既非联合连续，也非联合离散，我们也可考虑相应的条件 分布. 举例来 
说，假设 x 为一连续型随机变量,其密度函数为/,而尺为一离散型随机变暈，那 
























由密度与概率的关系可导出 

P{x {i) > + d,< = 2,3} = JJJ /x (l) .A 


i,i a ,®s)<i»id«2da：3 


f l-2d fl-d tl fl-M fl-d 

=3! / / / da：3 da；2 = 6 / / (1 _ d - i2)d®2d®i 

Jo Jsi+dJxa+d Jo Jxi+d 

=6 / 0 I wdwdxi 

其中，我们作了变童替换 W = 1 - d — *2. 将等式继续下去，得 » 

- 3 r (l-2d-®i) a d*i =3jf W?dyi = (l-2d) 3 
这样，当 d < 1/2 时，一英里的路段上随机地分布的三个人之间两两最小距离大于 
d 的概率为 (1 - 2d) 3 . 利用这个方法还可以证明一英里的路段上随机地分布的 n 
个人之间两两最小距离大于 d 的概率为 

其证明作为练习. ■ 

将 （6.1) 式进行积分可求得第:; • 个次序统计量 X 0 ) 的密度函数.但也可以用 
下列方法直接推得 • = 3；意味着，…， X„ 中有一 1个值小于I，有一个值 

等于 A 有 n - 个值大于 a:. 对于给定的一个变量等于 A 给定的 J - 1个变量的 
值小于: r， 其余的变量的值大于 z 的概率密度为 

(矿 1 [l-_F(*)]"-"(*) 


由于„个变量分成三个组的方法有 


胸 -1)! 


种. 这样， 





X U) 的密度函数为 

/ x W (*)= 卜二一川 陶卜 1 [1 - F ⑻ ⑻ (6.2) 

例 6 b 设 A ，…， X 2 n +1 为独立同分布的随机变量（统计上称&，…， X 2n+1 
为一个大小为 2 n + l 的样本).次序 统计量 X { n +1) 称为样本中位数.现设 X lt X 2 , X 3 
为 (0,1) 上均匀分布的一组样本.求样本中位数落入区间 (1/4,3/4) 的概率. 

解： 由样本中位数的定义可知，本例的样本中位数就是 X (2) . 利用 （6.2) 式， 
X {2) 的密度函数 

fx m (x) = - x ) 0 < z < 1 

因此所求概率为 

P {\< X W<\} O -x)dx = 6{^- 专 = 笤 ■ 

只需将 （6.2) 式积分就可得到的分布函数 

Fx U) (y)= ( n _ i ) " j i _ 1)! £ j F ( s ) 广 1 1 1 - F ⑻ (0.3) 
但是也可用其他方法求得 Fx u ) ( y ), 注意到第 j 个次序统计置小于或等于 1 /的充要 
条件是 X u ."， X n 中小于或等于 V 的个数等于 j 或比更多，即 
Fx u ) ( y ) = P { X 0 ) < y } = 个成更多 X * 矣 V } 

=E©i F (»)] fc i 1 - 2；, (»)] n ' fc ( 6 . 4 ) 

利用分部积分法，可以证明 （6.3) 式和 （6.4) 式右边的两式是恒等的_如果令 F 为 
(0,1) 上的均勻分布[即/⑻=1,0 < * < 1】，比较（ 6 . 3 )式和（ 6 . 4 )式可得到一个十 
分有用的分析恒等式 

t ⑵作= ( n - i ) iii - i)t jy ' 1 - x)n - idx …^ _ 
类似于公式 (6.2) 的推导,我们可以求得与 A ■(力 的联合分布密度 （i < j )« 
fx ⑼ x ⑴ ( Xi ， Xj ) = (i _ 1} . y _ i ) i (n _ j l ^)) 4 " 1 (6 6) 

x 【 F ⑹- F ㈤ 广 - 1 【1 - F ( xj )] n - j f ( Xi ) f ( Xj ) Xi < Xj 
例 6 c (随机样本极差的分布）设^^，…， X „ 为 n 个独立同分布的随机变量. 
随机变量 K = X (n) 称为极差•设足的分布函数为 F ( x ), 相应的密度函数 





取叫 ! _ 1 i |=- 2 

由 l/i = *1 + * 2 , ya = - a ：2 解得: C ! = ( f /1 + V 3>/2, a ；2 = (tfi - W )/ 2 •利用 （ 7 .1) 式 

可得 

/yi,y a (yi»») = |/x,^fa((yi + »)/2,(i/I - ya)/2) 

例如, XuXi 为独立同分布的 (0,1) 均匀随机变量，则 

\\ 0 < yi +» < 2,0 < 1/1 - y 2 < 2 

Ai,y a (vi.»2) = < 

卜其他 

若 X U X 2 为相互独立的指数随机变量,其相应的参数为 AuAa , 则 

^.^>0 





J(x,y) = {x2 f y2)37i + (x2 f y2)S j2 = ^J +y 2 = I 

由于； f 的联合密度函数为 

/(*•») = ^- (iW)/2 

& 在求变换* * = V^+l^,9 = tan - W / aO 之下 fl , e 的联合密度,为了求得 («,©) 
的联合密度，我们将 ( x , y ) 平面分 成4大块 ， (* > 0 ,y > 0 ),(x < 0 ，y > 0),(® < 
0 ， i / < 0) 和 Oc > 0 ， V < 0)， 而 r =： v / ^ r + y 5 .® = tan~ l (y/x) 将 （* > 0， j / > 0) 变换 
成 0 < 0 < =，0< r < 00 . 现在考虑条件密度 


= VXa + y 5 * 和 € 
f(r,B\X>0,Y： 


= taiT 1 (Y\X) 之下， {R,Q ) 的条件密度为 
))=^ re - ^, Q < 0 < n/2, 0 < r < oo . 




类似地,我们可以得到 








所需的时间服从指数分布，并且完成各项工作所需时间是相互独立的.现在假定将 
这 n + m 项工作分配给两人去完成.甲完成其中 n 件，乙完成余下的 m 件•甲乙 
两人所花费时间分别为足 K •义， F 相互独立,并且其分布为 r 分布,参数分别为 
(n ， A) 和 （ m ， A). 甲所花费的时间占总任务时间（即 X + y) 的比例具有分布，参 
数为 (n,m). ■ 

现在设 X u ."，X n 的联合密度已经给出，我们希望求得 , y n 的联合密 
度函数，其中 

Yi = 9i(Xi，...，X n ) Y2 = 92(X1,-•• ,X„) ••- Y„ = g n (X\, - - - ,X n ) 

其解法与二维随机变量的函数的密度的求法类似.我们假定具有连续偏导数并 
且雅可比行列式 7(*1 ， … ， : c n )#0 对 一 (*!,•■• ,x n ) 成立，其中 
\dgi dgi dgi 1 

|^T 9^2 dT n \ 



... ^ n \ 

dX 2 dx n I 

进一步,我们假定方程组 

yi=ffl(*l, - - ,*n) 

W = 9a(xi,- - ,*„) 


Vn=9n(xi,- - ,X n ) 

具有唯一解，即 *1 = hl ( Vl ， …， | fc »)， …， * n = hn(Vi， …， yn ). 在这些假定之下， 
Yir - , Y n 的联合密度为 

fyi,-,Yn(yU " ， Vn) = fx u …, X n (Xi ，… ,* n )|^(«l, •• (7.3) 

其中 妁 = hi(yi, -- ,Vn),i = 1 , 2 ,-■■ , n . 

例 7 d 设 A , X 2 和 X 3 为相互独立的标准正态随机变量,令 K = & + X 2 + 
Y 2 = X !- X 2 , Y 3 = X 1 - X 3 . 计算 Y lt Y 2 , Y 3 的联合密度. 

解： 计算 n . n . n 相对于 X ly x 2 ,x 3 的雅可比行列式， 

| … | 

<7=1 -1 0 =3 






=fxi, -,Xn(yiiy2 - i/i.• • • ，yi-Vi-i ，… ,vn-vn-i) 

=A n exp{-A[i/i + 2(y<- 

=X n e~ Xvn 0<yi,0<tfi-|fe-i,* = 2,- - ,n 

=\ n e~ Xvn 0<yi<y2<- <Vn 

(b) 为求 K 的边缘密度，我们必须对联合密度中的其他变童求 积分. 现在一 
个变量 _个变童地求积 分:的 

/y at ... •»**) = ^ A n e- A »- dy, = A n W e - 如 0 < y2 < y 3 < ■ ■ - < y n 

进— 步对坍 求积分，得 

fy a ,. , Y ^ - ,yn) = jf W A" W e-^-d W 

=A n ^e _ ^" 0 < y 3 < »4 < < Wn 

下一步得到 

/k«, •••,»«) = A- 0 < »4 < … < V» 

继续下去,最后得到 

— ° <Vn 

这个结果与例 3b 的结果是一致的，即 心 + ... + Xn 是 r 随机变量，参数为 (n,A). 

•6.8 可交换随机变置 

随机变量序列 X 1 ,--,X„ 称为可交换的，如果对于1,2,… ，n 的每一个排列 

*1."- i*n, 

P{X it < Xi . Xi , <*2, - .Xi, <*„} = ^{^1 < x uX2 <xa, - - ,jfn <*n} 
对一切 奶, .…， a：„ 成立. 换言之， n 个随机变量称为可交换的，如果它们的联合分 
布与这些随机变置的次序无关. 

当 右， … ，久 „ 为离散型随机变量时,可交换条件可写成 
P{X 4l =x 1 ,X ia = x 2 ,- -,Xi n = x n } = P{Xi = xi,Xi = X2,- - ,X„ = x„} 
对一切排列和—切XI,••- ,X„ 成立.它与下列陈述是等价的：分布列？(灼，*2,…， 




此，我们只需对 E2 Bl *i = fe. 灼等于0或1证明 p(n, ---.Xn) 是对称 
函数即可.为了对 P (Xl,-.. , Z„) 有个直观的了解,取一个具体的向童 （1, 1，0,1,0, • • • ， 
0,1)，其中有 fc 个 l，n-fc 个 0. 



这个公式比较直观，由于抽取第一个球是一个特殊的球，因此， 第一 个球是特殊球 
的概率为 jfc / n , 在第一个球为特殊球的条件下,第二个也是特殊球的概率为 （A - 1)/ 
( n -1), 在第一、第二均为特殊球的条件下,第三个为普通球的概率为 ( n - 幻 /( n _2), 
如此继续下去，把这些条件概率乘起来就得到 p ( l , l ,0, l ,0,...，0, l ). 这些连乘的 
分数的分母的连乘积为 n(n - 1) …1,其原因是每抽到一个球,坛子里的球就少一 
个.而分子可表示为两部分的乘积，一部分为_ 1)• • • 1,另一部分为 («-*)• 
(»»-*:-1).-1，这样我们得到 



显然， Ph ，…， rt „) 是 ( Xl ,.-, x n ) 的对称函数，即 ( X U … M 是可交 换的. ■ 
注釋现介绍另一种计算 p ( x lr ••，*„)的方法•将 n 个球编上号,不妨将 fc 个 
特殊的球编号为1,2，... ， Jfc ， 将 n - fc 个普通球编号为 k + l ,.--, n . 将球一个一个地 
从坛子里取出来，等价于将这些球排成一个队第一次取出的是 h ，第二 
次取出的是 i 2 , 等等，显然是一个试验结果.而毎一种排列 ( ii ,---, in ) 
的可能性都是相 等的. 而对于固定的 （0^*2, 事件 （ A ，…，: r „) 由这样的 







X 和 y 是可交换的离散随机变量，则 

P{X = x) = Y t P{X = x,Y = y} = Y t P{X = y,Y = x}^ P{Y = x} 

在例 8a 中，第 i 次抽得的球为特殊球的概率等于 P{Xt = 1} = P{X 1 = 1} = k/n. 

直观上也是很淸楚的，坛中的《个球中的任意一个球在第 i 次被抽到的可能性都 

是一样的，因此， P{Xi = 1} = k/n. 

例 8b 在例 8a 中令 U 表示抽到的第一个特殊球所需的抽球个数.令妁表 
示抽到第一个特殊球以后,直到抽到第二个特殊球所需要的附加抽球的次数.一般 
情况下，令V；表示抽到 i - 1个特殊球以后，直到抽到第 i 个特殊球所需附加抽球 
次数， i = 1, "，fc. 例如，如果 n = 4,* = 2,Xi = 1,X 2 = 0，X 3 = 0,X A = 1, 则此 
时, K = 1， y 2 = 3. yi ，… ，u 与 Xi, …，具有如下 关系： 


其他的 


Y\ = *1,1^ = *a,• • = *fc -^ii = Xi 1+I 

Xi ~0 


由上式结合例 8a 的结论可知 

P{Vi = ii,Y 2 = t 2f .-,n = <*}= fcl ^J* )! *i + --- + ifc<n 

由上式看出, Y ir -,Y k 为可交换的.现在把一副扑克牌中 “A” 称为特殊的牌, K 表 
示一副洗好的扑克牌中一张一张地发牌，直到第一张 “A” 出现为止所发的牌数 • 妁 
表示第一张 “A” 以后直到第二张 “A” 出现为止所发的附加牌的张数，等等•由于 
Y l ,Y 3 ,Y 3 ,Y 4 是可交換的，因此，所有 Vi 的分布都 相同. ■ 

例 8c 下面的模型称为波利亚瓮模型.设有一个瓮含有 n 个红球， m 个 蓝球. 
每次从瓮中随机地抽取一个球,记下其颜色并放回瓮中，同时还往瓮里添加一个同 
颜色的球.记 


为了对 Xi 有一直观了解,看下面的两- 


x = il 如果第 j 次抽得红球 
Xi= \o 如果第:;次抽得篮球 
看下面的两个特殊情况 


n(w + l)(n + 2)m(m + 1) 


_ (n + TO)(n + m + l)(n + m + 2)(n + m + 3)(n + m + 4) 


P{Xi = 0,X 2 = 1,X 3 = 0,X 4 = l,Jf 6 = l} 







是对称的,第二次抽出这 n + m 类中的任意一类的概率是相同的（放回去的另外一 
个球的类别与抽出来的类别被认为是相同的)，这样第 j 次抽出是红球的可能性为 

n/(n + m). ■ 


最后一个是关于可交换连续变量的例子. 

例 8d 设 X u .", X n 为相互独立的 (0,1) 均匀随机数，记X⑴，…， X (n> 为 
它们的次序统计量.令 

^1 = -^(l) Yi = - i = 2, …， n 

指出 H， …，为可交换的. 

解： 考虑 n 维空间中的变换 



不难看出这个变换的雅可比行列式为1，因此，利用 （7.3) 式， K ，…，的分布密 
度为 

/n-y»(»i, •••，!/») = f{vi,vi+V3,- - ,vi + --- + yn) 

此处/是X⑴，… , x { n ) 的联合密度（而不是 x lt -, x n 的联合密度)，因此 

Al ， ".,v»(yi， … .»») = «• 0< Vi <yi + |ft< ••- <yi+ •• + !/« <1 

或等价地， 

A-,,-,y»(»!» •■ >»n) = n I 0 〈讲 <l,i = l, … ， n , 坍 + …+ 枷 < 1 
从上述表达式看出是扒，… ，恥 的对称函数,即…， K 为可交换的随 
机 变量. ■ 






教 /(*，!/)， 使得对任意二维集合 C 1 ， 


P{(X,Y)€C} = JJ f{x,y)dxdy 

从上式可知 

P{x <X <x + dx,y<Y <y + dy}f>i f(x,y)dxdy. 

若 X 和 y 联合连续,则它们各自都为连续型的，且密度函数分别为 
fx(x) = J f(x,y)dy Ml/) = / 如 八®，!/)* 1 ® 

随机变量 X 和 y 称为独立的，如果对任意集合>1和 S ， 有 
P{X eA,YeB} = P{Xe A}P{Y € B} 

若联合分布函数（或者离散情形下的联合分布列，或者连续情形下的联合密度）可 
以分解为两个因子，其中一个只依赖于 A 另一个只依赖于 I /，则 A •和 y 独立 • 
一般情况下，随机变量 X u …、 x n 称为相互独立的，若对一切实数集山，…， 
4有 

P{X! eAu - - ,An€An} = P{Xi e 先}… P{Xn € An} 

若 X 和 y 为独立连续型随机变量，则它们的和的分布函数可以通过下式 得到： 
f x +y(o) = - y)Mv)^v 

若 X“i = l， …， n, 为独立正态随机变量，参数分别为 Mi 和 W，i = 1，…， n， 
则 Eti x i 也为正态分布随机变童，参数为和 











































































的槪串是多大？ 

















































第 7 章期望的性质 


7.1 


引 


本章中，我们将进一步讨论期望的性质.对于离散型随机变量它的期望由 
下式 定义： 


E[X\ = ^2xp(x) 


其中 P (®) 是X的分布列.对于连续型随机变量,X的期望由 
E[X] = y~*/(*)dx 
定义,其中/⑷是X的密度 函数. 

由于 E[X] 是随机变量X的所有可能取值的加权平均, E[X] 的值必定介于X 
的两个极值之间.因此,我们有如下结论，若 


则 


P{o < X < 6} = 1 


a < E[X] < b 


我们在离散情形下证明此 结论. 由< X < 6} = 1可知对于一切1(*,6】，均 
有〆 = 0,因此 


利用类似方法可证 E[X] < b. 这样，我们在离散情形下证明了 a < E[X) < b . 连续 
型情形下的证明完全类似,细节从略. 


7.2 随机变置和的期望 

第4章的命题 4.1 和第5章的命題 2.1 给出了随机变量的函数的期望值的计 
算公式.此处，我们将这个公式推广到二元函数的情况.设X和 F 为随机变量, 5 
是一个二元函数. 



命腰 2.1 若X， y 具有二元分布列 p(*, y), 则 

E\g(X,Y)] = J2H9{x,y)p{x,y) 

若具有联合分布密度 /(：r，》), 則 

E \ g ( x , = y)/(*,y)d*dy 


我们在 (X,Y) 为连续情形和 g{X,Y) 为非负情形下证明此命题.由于 g(X，Y)> 
0,利用第5章的引理 2.1, 可得 

E\g(X t Y)] = ^° P{g(X,Y)>t}6t 

将概率 

P{g(X，Y)>t} = ff f(x,y)dydx 

代入期望公式，得 

輕冽 =f//— 户)㈣ 

将上述的三重积分交换积分次序，得 

fOo fOO rg{x,y) 

E\g{X,Y)} = J ^J 丄。 /(x,y)dtdydx 
=J g(x,y)f(x,y)dy6x 

这样,我们证明了当 9(X,Y) 为非负随机变量时 E\a(X,X)) 的计算公式. g(X,Y) 
为一般情形下，可参考一维情况 处理. （参见第5章的理论习题2和理论习题 3) 

例 2a 设在长度为 L 的一段路 [0,L】 上某一点 A" 处发生了车祸.在发生车祸 
的同时，在 [oj] 的某一点 y 处有一辆救护车.假定都是均匀地分布在地段 
[0，L] 上，并且相互独立，求事故地点和救护车之间的平均距离. 

解： X和 y 之间的平均距离就是 £【|X - 111,由于 (,X,Y ) 的联合密度函数为 
/(*.») = 0<x<L,0<y<L 


由命题 2.1 可知， 


e [\ x - y \}^ 







= ^£1^]=/* 因为 


这个公式说明，样本均值的期望值等于其分布的均值.在统计中，分布的期望值通 
常是未知的,而样本的均值就作为 M 的估 计值. ■ 

例 2 d (布尔不等式） 设杰 ，…，为 n 个随机事件， 记不 ， i = 1,…， n 为这 
些事件的示性函数， 


Xi = 


爲发生 

其他 


记 x 刚好是这一系列亊件在试验中发生的次败，令 

vJ 1 X>1 

其他 

故当次 ， i = 1，…， n 中至少有一个亊件发生时，/ = 1,否则 Y = 0 . 由此立即可知 
X>Y. )m E[X]> 由 


E ( r ]= 冲至少 有一亊件发生 } = p ( U ^) 

可知,布尔不等式成立，即 

p (j^,)<E p ⑷ ■ 

下面的3个例子说明 （2.2) 式可用于二项分布，负二项分布和超几何分布的期 
望公式的推导.将现在的方法与第4章中的方法进行对比，可显示出公式 （2.2) 的 
优越之处. 

例 2 e (具有二项分布的随机变量的期望公式）设 X 的分布为二项分布，其参 
数为 ( n , p ). 注意到 X是 n 次独立重复试验中的成功次数，而每次成功的概率为 P ， 
我们可将 X 写成 


X = Xi + X2 + ■■■ + x n 



个白球被取出 >= © {l~l)/0 =n/N 





此处的 i 是第 i 次抽取的意思，而前面不中的 i 是第 i 个白球的意思,两者含义不 
同•由于尺个球中的每一个球被第 i 次取出的概率都相同，因此五防]= m / JV , 故 
E[X] = E\yi] + • • • + £7[y n ] = nm/N m 

例 2 h (配对的期望数） AT 个人首先把他们的帽子丢在某房间内，将幅子充分 
混合以后，又让每一个人随机地取一顶帽子,求选中自己帽子的人数的期望值. 
解：记 A •为选中自己帽子的人数,； f 可 写成： 尤=不+尤 3 + ... + ；^,其中 




fl 第 i 个人选中自己的_子 

卜其他 


对于毎一个人来说,选中任何一顶帽子的可能性是相同的，因此 
E[Xi] = P{X t = 1} = ^ i = l，-"，AT 

这样 


E [ X ] = £?[ Xi ] + ••• + E \ X n \ = j^xN = l 


因此，平均来说,只有一个人能拿到自己的帽子. ■ 

例 2 i (优惠券的收集问题）设一共有 7 V 种不同的优惠券,假定有一人在收集 
优惠券，每次得到一张优惠券,而得到的优惠券在这 AT 种优惠券中均匀地分布.求 
出当这人收集到全套 W 张优惠券的时候,他收集到的优惠券张数的期望值. 

解：记 X 表示这人收集到全套优惠券时所收集的优惠券的总数.我们利用例 
2 f 中的方法来计算茗阅.记不表示第 i 种优惠券已经收集到，为收集到第 i + 1 
种优惠券所需要的附加次数.注意 X 具有如下表 达式： 

X = Xo + Jfi + • • • + Xn -\ 

设有 i 种优惠券已经收集到，则下一次收集到一张新的优惠券的概率为 ( N - i )/ N . 
这样，不的分布为几何分布，即 

= = k>i 

因此， E [ Xi ] = N /{ N - i ), 由此可得 

£ 闪 =1 + ^1 + ^^如.- + ¥ = 叫 1 + 全 + ... + ^1 + 士] - 

例 2 j 10个猎人等待一批野鸭飞过，当一群10只野鸭飞过猎人头顶时，10个 
猎人随机地瞄准一只野鸭并同时射击.设每位猎人击中野鸭的概率为 P , 求逃过这 
一劫的野鸭数的期望值. 





以及关于总的游程的个数的期望， 








例 21( 平面上的随机 徘徊） 设在平面 
坐标系的原点上放一质点，质点在平面上 
作如下的随机 徘徊. 每一步质点移动一个 
单位距离，且前进方向与 o: 轴的夹角0在 
(0,2«)上均勻分布.（见图 7.1.) 计算在走 
了 n 步以后，质点离开原点的距离的平方 
的期望值. 

解：用 (Xi,Yi) 表示第 i 步移动后，坐 
标的变动量,因此 

Xi = cos 0 i Yi =8 m&i 



⑨为里点 


图 7.1 平 fii 上的随机徘徊 


其中轧 i = 1,2,…， n 为相互独立,且在 （0,2 ji ) 上均匀分布.经过 n 步以后，质点 
的位置为质点离开原点的距离的平方的公式为 

D2 = (f» a + (f» 2 = E^ a +^)+E E (不 々 + 邱） 

i=*l i=l t-1 i^j 


= n + y^y^ (CQ6gfCOsflj +sin 込 singj) 


注意，此处利用了公式 cos 2 氏 + sin 2 氏=1.在求 Z) 2 的期望时,利用氏之间相互独 
立性假设以及 


n2n-sin0 = 0 


2n£[co60{] = J co8t(du = sin 2： 

2nB[8in5 4 ] = J sinudu = cosO - cos2» = 0 


最后得到 E [ D 2 ] = n . ■ 

例 2m (快速排序算法）假设有一组互不相同的数: d，... ，％.我们需要将它 
们排成一个上升的序列,称这一过程为排序.通常采用一个快速排序程序来完成这 
—任务，其方法 如下： 当 n = 2时，只需直接比较这两个数并且将他们排成升序即 
可.当 n > 2时，随机地选一个数，设为: ri， 然后将所有其余的数与而作比较，将 
小于而的数归入叫左边一集合，将大于々的数归入而右边一集合,然后对于那 
些数的集合重复刚才的处理过程，直到所有的数都已排成升序为止.例如，下面是 
10个不同的数 


开始时从中随机地选一个数（每一个数被选中的概率都为 1/10) 比如说选中了 
10,然后每一个数与10做比较,这样得到 


{5,9,3,8,4,6},10,{11,14,17} 



现在’我们还是考虑最左边的非单点集合，将它的元素进行比较.最左边的非单点 
集合为 {5,3,4}, 从中随机地取出一个数，例如4,这样，经过排列以后得到 
{3},4,{5},6,{9,8},10, {11,14,17} 

重复这个过程直到每个花括弧中只有一个数为止.这样快速排序法也就完成了 • 

在排序过程中，最基本的运算是比较两个数的大小.记 X 为实现排序所需的 

比较的次数，则 E[X) 是一个排序算法的效率的一个度量，为计算 E[X), 我们首先 

将 X 写成一列随机变量的和.为解决这个问题，首先将最小值命名为1,将第二小 

的值命名为2,……,将最大值命名为 n , 对于 i < j ，记 

、 f 1在排序过程中， i , j 直接比较过 
聯 = 0其他 




寧卜瓦 E E n <, j )] = E E 卿，州 

1 i=l j = i+l i=l i = i+l 

= 琴零 P { i 和 J •在排序过程中直接进行比较过 } 

现在需要计算概率 

和 j 在排序过程中直接比较过 } = 

考虑数集合 *,* + 1, ••- , j , 一共有 j-i + 1 个元素 • 最初它们全包含在—个大的集 
合中，用一个花括弧将这个大集合括起来 • 在排序过程中，随机地选定一个比较点， 
若这个比较点不在此区间内，即比 i 小，或比 J ■大，则此时数^不会直接进行比 
较，在比较后重新排序时，它们还是处于同一花括弧内 • 现在假定选择的比较点落 
入集合 M + 1 ，…， j - U 之中，则只有当选择点为 i 或 J 时， i 和:/才会直接进行 
比较,否则它们与比较点比较后，将分别放进左、右的花括弧内，而不会直接相互比 










到的公式代入 E[X] 的表达式后，得到 
n 充分大时,利用近似公式 


率]= 


= 21 n ( n-i + l )-21 n 2«21 n ( n-t + l ) 


8 ^ 21 n(n - i + 1) w 2 ln(n - a : + l ) d ® = 2 dy 

= 2( ylny - y)|j «2 nlnn 


可知 E [ X ^ ■ .- X ik ] = (2.3) 式变成大家熟知的事件和容斥公式 

p(im) =E P ⑷ - EE p (^i) 

_... + (_l)»+Xp( J 4 J ... j4n) 


现设义治 > l ) 是一个随机变量序列，每一项具有有限期望，下面的公式却不 
是无条件成立的， 

(2.4) 

在下列的一系列等式中，打问号的一处 i (2.4) 式成立的关键. 


£ [§ x ']= 

= n ^^[E^] = n 1 ™E^]-E^] 


(2.5) 


问号是指期望运算和极限运算是否可以交换的问题.若两个运算可交换，则 
(2.4) 式成立.在一般情况下,这种可交换性是没有得到证实的.但是下面两种重要 
的特殊情况下， （2.5) 式中的两种运算的可交换性是得到保障的. 

1. 足均为非负随机变量（即 P { X t >0) = 1 对一切 i 成立). 

2. ESiW<l]<<»- 

例 2 o 考虑非负整数值随机变量 X ,对一切 i > 1，定义 




= E ^+ 4 E +i a 


由于都是非负随机变量，因此 

E[X] = £ E(Xi) = £p{X^i> (2.6) 

这是一个非常有用的恒 等式. * _1 ，_1 ■ 

例 2 p 设有 n 个对象，记为1,2,…， n . 这 n 个对象被放在计算机的 n 个单 
元中，他们顺次放在序号为的单元中，其中 {“ ，…， i n } 为 { l ,2,--, n } 
的一个排列.现设每次从这 n 个对象中随机访问一个对象，并且每次访问与过去的 
访问历史是相互独 立的. 现设访问对象 i 的概率为 P ( i ), EU (0 = 1，假定邱） 
为己知.现在的问题是什么样的单元摆放次序,能够使得每次访问的对象所处的单 
元序号的期望值达到最小. 
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M： 不妨设这 n 个对象的访问概率满足条件/ >(1) P ( n ) •我 

们指出这些对象的最优摆放次序应为 O 0 = {1,2, 记 X 为被访对象在计 
算机中所处的单元的序号，对于对象1，2,…， n 在计算机中的单元任一排序 O = 
{*1> " .*«}： 

Po{X > fc} =p^P(ii)> = P 1.2, ： n{X>k} 

由此利用公式 （2.6)， 可得 Eo(X) > Et, 2 ,.., n (X). 本问题的结论指出应该把最经常 
访问的对象放在最容易访问的单元.这样的系统设计，搡作起来最順手，访问的期 
望时间也最短. ■ 


*7.2.1 通过槪率方法将期望值作为界 



—对都进行比赛，一共进行 g ) 场比赛，现将运动员编成号1,2,下面的情 
形形成哈密顿 路径： “，…， k 如果“胜 k i 2 胜 <3,如此下去，直到胜 <«. 
一个问题是求哈密顿路径的最大可能数. 


作为解释,设《 = 3,如果有一个人胜了 2次，此时,只可能有一条哈密顿路径， 
例如，1胜了 2和3, 2胜了 3,则唯一的哈密顿路径为1, 2, 3. 另外，若在循环赛中 
没有人贏得2次，即每人胜负各1次,1胜2, 2胜3, 3胜1,此时,哈密顿路径的条 




















对于任意一组数 XX, -...Xn, 下列恒等式 成立： 
max®< =^Xi - + ^ ^(xj.x,,®*) 

* » i<j i<J<k 

+ ••• + (-l) B+l min(xi, •••，*„) 


证明： 我们给出一个概率的 证明. 首先，假定所有的抑在[0，1]区间内，令£/ 
为 （0, 1) 上均勻分布的随机变量,记事件 A i ^{U<x i ), 不难验证 
LJili = { U < mpa : i } 

因此， 

P{|Ji4i} = P{U < m|KXi} = nuuczi 


Ai x ■••Ai r = {U <^ min 

进一步得 

P{Aii ■A ir )~P{U < 

由亊件和的概率的容斥 公式： 

p (U^)=E p ^)-E p ^)-» - E 尸 ( 柄厶 ) 


可得到该恒等式. 

现在设％为非负，但不限制于单位区间•设 C 为常数,使所有為均小于 C, 此 
时恒等式对于识= 恥 / c 成立，再在恒等式两边乘以常数 c , 可知恒等式对 灼也成 
立.现在假定叫可取负值，此时，存在6,使得 A + 6 > 0对一切 i = 1，… ，n 成立. 
这样，下列恒等式成立 

max(xi + 6) = ^(*i + b)~ y^min(xj + 6,*^ + 6) 

+ … + (-l)" +1 min(sei + i >， … ,xn + b) 

记 M = E< - Ei<i rmn(Xi, !,) + ••• + (-l)^ 1 min(®!, • 可将上面的恒等 


式 写成： 


max* i + 6 = M + 6(n-(5) + •+(-l) n+1 (；)) 
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但是下面也是一个恒等式 

o=(i-ir=i-«+o"+(-i)«(;j) 

将上面的两个恒等式合并便得 

这样，证明了本命题所列的恒等式对一切 々( i = 1 , ••■,«) 都成立. 

由命题 2.2 知,对任意随机变童 X U … , X n ，有 
maxX i = 53x < -53 min(X 4 , Xj) + ■■■ + (-1)" +1 min(X, ， … ， X„) 

* i i<i 

将上式求期望，可得 

E [ maxXi ] = 柳】 - X ,)] 


+ ••• + {-D^ElnoniXu - -,X n )} (2.7) 

例 2 s (不等概率的优惠券收集问题）现设某人收集优惠券,每次收集一张，均 
独立于以前所收集的优惠券.现设一共有 n 种不同的优惠券，每次收集的时候，优 



解：记 为收集到第 i 种优惠券时所收集到的优惠券张数，记 X 为收集到全 
套 n 种优惠券时所收集到的优惠券总数. A ■与不之间有如下的关系 


X = 4 _ max n X < 

由于收集到一张第 i 种优惠券的概率为 Pi , 不的分布是以 P< 为参数的几何分 
布.又由于是为了收集到第 i 种优惠券或第 j 种优惠券所需收集的 
优惠券的张数，因此 min (不，七）的分布是以 w + Pi 为参数的几何 分布. 类似地， 
的分布是以 Pi + Pj + Pk 为参数的几何分布^利用 （2.7) 式以及几 
何分布的性质可知 

E[X] = ? ^ +Pi +PH 

+... + (_1)»+1_1_ ， 

注意到 r ! 

并利用恒等式 

e-«*) = Y^e-^ x - 52 e-^^> x + ••• + (-i)"+i e -d>i+“+P»)* 




关于 E[X] 的等式可以化成下面更便于计算的公式 

即 f] = /°°(l-n(l-e- p ‘*))dx ■ 

7.3 试验序列中事件发生次数的矩 

上一节中的许多例子都具有下列 形式： 对于给定的事件序列 A lt - - ，鳥 ，求 
出 五 pfl, 其中X是这些事件在试验中的发生次数.其解法是给出每个事件的示性 
函数 



利用关系式尤=1：；^4,可得 

聊 = 芯 [|>]== E p w) (3.1) 

现在我们感兴趣于“亊件对”出现的次数. 若次 与木在试验中出现，则 
Ii lj = l , 反之，则 A . 心= 0,因此，在试驗序列中， ^IJj 是事件对出现的次 
数.又由于X是试验序列中事件出现的次数，因此事件对出现的次数为这 

在上式右边的和项中，一共有项.上式两边求期望，得 

E [(?)] =EWi] = E p (^i) (3-2) 

由此得到 

E^] - £[X] = 2 E PiAtAj) (3.3) 

i<i 

进一步可得到 B[X 2 ] 和 Var(X) = E[X 2 ] - (E[X]) 2 的公式. 

进一步，考虑在试驗序列中， fc 个事件组的出现次数,可得到 


两边求期望得到 





E [®] = E 同 E 丸… 軋） (3.4) 

ii<ia<-< “ u«a 々 "< “ 

例 3 a (二项随 机变量 的矩）考虑 n 次独立重复试验,每次成功的概率为 p , 记 
次为第 i 次试验成功这一事件，当 i W 时, P ( AiAi ) = p », 由 （3.2) 式得到 

卜§卜(以 

或 

S [ X ( A '- l )] = n ( n - l ) p 2 

或 

£?[ X a ]-£；[ Jf ]= n ( n - l ) p 2 
再利用 E [ X ] = Y.ti /»(▲)= np , 可得 

Var ( X ) = E [ X 2 ] - ( E [ X ]) 2 = n ( n - l ) p ^ + np - ( np) a = np ( l - p ) 

这个结果与 4.6.1 节的结果相同. 

一般情况下，利用 PiAi . At , …軋 ） = p *， （ 3 . 4 > 式变成 

或等价地 

五 [ X ( X -1) - ( X -* + l )] = n ( n -1)"•(»»-* + l } p fc 
利用上式可以递推得到各阶矩 £?[ X*],fc > 3.例如， A : = 3的情况下， 

E [ X(X - l )( X -2)] = n ( n - l )( n - 2) p 3 

或 

S [ X 3 - 3 X a + 2 X ] = n ( n - l )( n - 2) p 3 

从而 


f?[X 3 ] = 3EIX 2 ] - 2E[X] + n(n- l)(n- 2)〆 

= 3 n(n - l ) p 2 + np + n(n - l)(n - 2) p 3 ■ 

例 3 b (超几何随机变量的矩）设一个坛子中有 iV 个球，其中 m 个为白球， 
汉 -m 个黑球.现从中随机地抽取 n 个球,此时 n 个球中的白球个数 X 就是事件 
木，戌，…，烏的发生数，其中亊件次表示取出的第 i 个球为白球•由于第 i 个球 
可以是 AT 个球中的任意一个，其中 m 个为白球，因此 P ( Ai ) = m / N . 由公式 （3.1) 
得到 E [ X \ = P (^*) = rim / N . 又由于 

P{AiAj) = P{Ai)P(Aj\Ai) = ^ - 


再利用 （3_2) 式得 















5, 因此， 


以后，才被取出来. 

由于这 n +1个球都处于平等的地位, 
每种情况出现的概率为 i / ti , 而次 刚好是 


上述的 n + 1种情况是; 
由前种情况所组成 ， E 


:等可能的 


P(Ai) = 


^+T 


这样 , ,、 

r r(n + m + 1) 

E[ y ]=r + m ._ = _ ^― • 

举例来说，在翻牌游戏中，在一副扑克牌中，翻出一张黑桃所需的平均翻牌数 
为1 + 39/14 = 3.786 (r = l,n = 13 ,m = 39), 而翻出一张 “ A ” 所需的平均张数为 
1 + 48/5 = 10.6(** = l,n = 4 ,m = 48). 

现在计算 Var ( y ) = Var ( X ). 我们利用等式 


EIX(X-1)]^2X ； P(AAj) 

i<i 

其中木）是 r 个特殊球被取出以前 0 i , oj 已经被取出来的 概率. 考虑 n + 2 个 
球,其中包括 Oi , 0 j 以及 n 个特殊 的球. 由于 Oi . Oj 以及 n 个特殊的球在抽取过程 






惠券时，假设各种优惠券是等可能出现的，并且与以前收集的历史是相互独立的 • 
现设一个人不断收集优惠券,直到全部 n 种优惠券收集齐全为止.现在希望求出在 
收集过程中，落单的优惠券的种类数的期望和方差 .® 


解：记 X 表示在收集过程中落单的优惠券数目•令7；表示收集到的第 i 种优 
惠券的种类 .* 用次表示 I ；在收集的过程中落单这一亊件，则 A ■等于烏…， 

中发生的事件数，从而 E [ X ) = E 2 -J 

现在求 P ( Ai ). 当第一次收集到 I ；类型的优惠券后还需收集 （n - i ) 种新的 
类型的优惠券®此时，这 n _ i + 1种 （71 - i 种未收集的以及 I ；)优惠券同等可能 











下面是关于独立随机变童乘积的期望的一个命 JS. 





E\s(X)h(Y)) = 乂: fl(* 剛 /(X，y)d*d» 

=/ / oo S (*) fc ( y W*) 八"⑼如办 
= 乂如 h(y)f Y (y)dyJ^ g(x)fx(x)6x 
= E[h(Y))E\s{X)] 

离散情形下的证明是完全类似的. 

期望和方差可以给出单个随机变量的信息,两个随机变量的协方差可指示两个 
随机变量之间的关系. 

| 定义X和 y 之间的协方差 Cov(X,Y) 由下式给出: I 

I_ cov(.y t r) = E[{X- E[x])(y - 五 m)l _ I 

将上式右边期望号下的表达式展开,可得 

Cov(X,y) = E[XY- E[X]Y- XE\}T] + E[X]E[r)] 

= E[XY]~ E[X)E\Y] - E[X]E\y\ + E[X)E\Y] 

= E[XY]~ E[X]E\y\ 

若相互独立，则由命题 4.1 可知 cov(x,r) = o. 但是其逆命題却不其. 
下面给出一个相依随机变量具有零协方差的例子.设 x 满足 下式： 
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命题 4.2 (!) Cov(X,r) = Cav{Y,X) (U) Cav{X t X) = Var(X) 

(Hi) Cov(aX,y) = oCov(X,y) 

(hr) 

命题 4.2 的 证明： ⑴⑻可直接由协方差的定义证得 .（m) 作为练习留给读者 
去证.现证结论 （iv ). 记= ElXilvj^ 迟防】.则由 

s [ s x< ] E [£ y <] = £ i/, ' 

会 )] 

=E^yx i -^ i )fyy J - Vi )^ 

«^)| = eS 邱不， )(d)l 
J <=1 j^l 

• □ 
利用命题 4.2 的⑻和 （hr), 并且取 yj = X Jt j = 1,…， n, 可得 

Var(f» 

<*1 <=1 i=l «=1 j=l 

=E Var w+EE Gw (不， ⑹ 

在上式中，对于二重和中出现了两次，因此上式等价于 

Var = f ； Var(X 1 ) + 2X ： E Cov (^^) ( 41 ) 

\<=1 / <=1 i<j 

如果 Xj ，…， X„ 两两独立，即对于 i / j, 不与 相互 独立. 此时，方程 (4.1) 简 
化为： . n 

Var (E x «J=E Var w 

下面的例子说明了公式 （4.1) 的用处 - 

例 4a 设&，…，为独立同分布随机变童序列，其公共期望为 M， 方差为 
a 2 . 如例 2c 那样，令尤= Xi/n 为样本均值，不 —X，i = 1, •. • ， n 称为离差， 
等于个体数据与样本均值之差.随机变量 


上述最后一个等式也是利用了期望运算的可加性 




称为样本方差.求 (a)Var(X) » (bJBiS 2 ]. 
m： (a) 利用独立性得 

O(P) - 0 言 4 


(b) 我们由下列代数恒等式开始计算 
(n-l)S 2 = f^X i -^ + n-X) 7 

= f^(X t -M) a + 矣(尤 -M) 2 _ 2( 尤 -M) 'fyXi-ft) 

= jyXi - n) 2 + n{X - m) 3 - 2{X - n)n(JC-^) 

= ^(X i - M ) a -n(X- A i) a 

再求期望，得到 

(n- DEIS 2 ) = f ； E[(Xi-n) 2 )- nE[{X-^) 2 ] 

= na 2 - nVar (尤) =(n- ljo 2 


上面的最后等式是利用了 （a) 的结果，而最前面的等式是利用例 2c (即/ i = E[X]) 
的结果.两边再除以 （《 - 1) 就得到样本方差的期望为 ■ 
下面例子提供了求二项随机交量方差的另—个方法 • 

例 4b (二项随机变量的方差）设 A： 为二项随机变童，其参数为 （《，P), 求 


Var(X). 

解： 由于X表示 n 次独立重复试验的成功次数,而每次成功的概率为 P, A •可 
表 示成： X = & +…+ ，其中不为独立同分布的伯努利随机变量 


fl 第 i 次试验成功 

X， ~\o *tt 

利用 (4.1) 可得 Var(X) = Var(Xi) + • • • + Var(X„). 又有， 

Var^) = £；[X?]- (£ 叫) a = E 叫- {E[Xi }) 2 由于 X? = 

= P-P 2 

因此， Var(X) = np(l - p) ■ 

例 4c (有限总体中的抽样）设一共有況个人，每一个人对某件事情有一个态 


















现在考虑 iVp 个 v < 为1,其 余的叫 值为0的特殊情况.此时, S 是一个超几何随机 
变量，其期望和方差为 


£?[5] = nC = np 由于 U =癸= p 

S/n 表示样本中％取值为1的那一部分的比例 . S / n 的方差和期望 如下： 



设为两个随机变童,假定 Var ( X ) 和 Var ( r ) 均大于0,则 
Cov(X,y) 

^ >y) - VVarWVar^) 

称为 X 和 y 的相关系数,可以证明 

-l<p(X,y)<l (4.2) 

为证明 （4.2) 式，令4 = VarPOd = Var ( K ). 利用不等式 

可知 一 1 <p(x,io. 另一方面，由不等式 

—( 差分學平叩-綱 

可知 p{X,Y) < 1. 因此,不等式 (4.2) 成立. 


事实上，由 Var ( Z ) = 0可推知随机变量 Z 以概率为1地等于一个常数（第8 
章将严格地证明这一事实).由 （4.2) 式的证明可以看出，若 p{X,Y) = l , 可推导得 



y = a +WC， 其中 & = (T y /a,>0, 同理，若 p{X,Y) = -l , 可推导得 F = a+ bX， 其 
中 & = -<Ty/a x < 0. 现在我们将下列逆命题作为练习留给 读者： 若 Y = a +&X， 则 
p(X,Y) = +1或 一 1,其正负号由6的正负所决定. 

相关系数是 A：,y 之间线性依赖程度的一种度量•当 P{X,Y) 接近+1或 -1 时， 
表明 x 与 y 之间具有很高的线性依赖性，而当接近0时,表示两者之间缺 
乏这种线性依赖性.当 p{X,Y) 取正值时,说明当X增加时, y 趋于增加，而负值说 
明当X增加时, y 趋于下降•若 p{X,Y) = 0, 则称 X,Y 为不相关 (unconrelated). 
例 4d 记 I a Jb 为亊件人丑的示性函数，即 

以=卜发生 Is^i 1 

\o 其他 \o 其他 

则 

E[ I a ]^P(A), E[I b ] = P(B), E[ I a Ib ] = P{AB) 

故 

Cov { Ia , Ib ) = P(AB)- P(A)P(B) = P{B)[P{A\B) - P(A)] 

由上式可得到一个非常直观的结论 ：h 和 h 为正相关，不相关或负相关，只需看 
P(A\B) 是大于、等于或小于 P{A) 即可. _ 

下面的例子指出样本均值与离差是不相关的 ■ 

例 4e 设，…，为独立同分布序列，其公共方差为 < t 2 , 指出 
Cov(X t -X,X) = 0 


解： 


Cov(Xi -文，文)= Cav(Xi,X)~ Cov(X, X) = Cov 



-Var (尤） 



其中第三个等式是利用了例 4a 的结果，最后的等式是由于下列等式的结果， 




由独立性 
由 Var(X<) = <r 2 


尽管X与 Xi — 文 不相关,但通常它们并不相互 独立. 然而当 X* 为正态分布 
时，X不仅与不 - X独立，而且与整个序列 -X,j = l,2, -,n 相互独立，这 
些结果将在 7.8 节给出.在 7.8 节中还将指出在正态的假定之下，又与样本方差炉 
也相互独立，并且 (n - 1)炉/«7 2 具有自由度为 （n - 1) 的 X* 分布（关于 S 2 之定义 
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例 5a 设X和 Y 独立同分布，其公共分布为二项分布,其参数为计 
算在X + F = m 的条件下X的条件期望. 

解： 首先计算 X + Y = mZr,X 的条件分布列,对于 ib < min(n,m), 

P{X = k\X + Y = 


P{X = k,Y = 


P{X = k,X + Y = m } 

'~ ~ P{X + Y = m )~ 

-*} P{X = fc}P{y = m - k } 

P { X+Y = m}~ = P{X + Y = m } 

© 

此处,我们利用了 X + Y 的分布列为二項分布[参数为 （2n,p)]. 因此，在 X + Y~m 
的条件下,X的分布为超几何分布.由例 2g, 我们得到 

E[X\X + Y = m) = m/2 ■ 

类似地，设X和 y 的联合分布连续,其联合密度函数为 /(x,y), 对于给定的 
y = 只要 fy ( y ) > 0 , X 的条件密度函数由下式 给出： 

’ xiAxlv) = 隸 

很自然地,给定 y = I/的条件下,X的条=期望由下式给出 
E [ X\Y = y ) = j ^ xfxirix^dx 

此处假定 fy ( v ) > 0. 

例 5b 设X和 y 的联合密度函数为 

f ( x , y ) = -~ 0<*< oo,0<y<oo 

计算 E [ X\Y = y ]. 

解： 先计算条件密度 




/:/(* ， W)d® 乂 (l/»)e-*/»e-»4r 
I e — /» 


因此，X在给定 Y = y 之下的条件分布刚好是指数分布,其期望为仏因此 

E[X\Y = y] = jT° 2 e -*^dx = y ■ 

注释条件概率满足概率的所有性质，条件期望也满足通常期望的性质，例如 





E[f2x t \Y = y ]= 矣柳 = »] 


仍然有效.事实上，给定 y = 1/之下的条件期望可以看成是较小的样本空间中的普 
通的期望，这个小的样本空间由满足条件 {y = w 的那些样本点组成. ■ 

7 . 5.2 利用条件计算期望 

用 E[X\Y] 表示随机变量 y 的函数，它在 y = y 处的值为 E[X\Y = y ], 注意 
E[X\Y\ 本身是一个随机变量.下面给出的命题是条件期望一个极其重要的性质. 


命题 5.1 

E[X]^E[E[X\Y]] (5.1) 


若 y 是离散型随机变量, （5.1) 变成 

E[X) = X ； E[X\Y = y)P{Y^y} (5.1 a ) 

若 y 的分布连续，具有密度函数 / y ( y ), 则 （5.1) 式变成 

E[X] = E[X\Y = y]f Y (y)dy (5.1 b ) 

X 和 Y 为离散情形下 （5.1) ^的 证明： 我们必须指出 

W = E E[X\Y^ y\P{Y = y} (5.2) 

从等式右边开始， 

= y]P{y = y} = EE = y)P{y = y) 

-'£T.- Plx P iy%r }piY ->^T.T.^ix-^y=y) 

= T,x'£P{X = x,Y = y} = 5>P{X = x} = E[X] 

可以这样来解释 （5.2) 式，期望值 E[X] 可以看成条件期望 E[X\Y = y] 的加权 
平均，而权值刚好是条件= 1/} 的 概率. 这个结果对计算随机变童的期望是极其 
重要的，它可以让我们首先很容易地计算某随机变量在给定条件之下的条件期望， 
然后再对条件期望求平均.下面的例子说明了这个公式的 用处. 























= ElNi \ Ni = 0] P{Ni = 0} + ElN^Nt = l ] P { N t = 1} 
+ E [ Nj \ Ni > l ) P { Ni > l } 


+ («- 1 ) j-^nP<(l - Pi )" -1 

h > 1](1 - (1 - Pi)" - npi(l- ft)— 1 ) 


E[Ni\Ni > 1]=- 


最后得到 

n Pj [l - (1 _ Pi)"- 1 -(n-l)f»«(l - Pi) n ~ a ] ■ 

- 1 一 （ l_p (产一 nj>*(l — ft)* -1 

类似地，也可以利用条件的方法计算随机变量的方差.请看下面的 例子： 

例 5 h (几何分布的方差）设有一独立重复试》序列，每次试验成功的概率为 
p ， 记 7 V 为取得第一次成功所需的试验次数■求 Var(JV). 

解：令 y = 1 ,若第一次试验 成功； y = o , 其他情况.利用公式 
Wax{N) = E[N 2 ]-(E[If\) 2 
为计算 ^[ JV 2 ], 先将它写成如下形式 

芯 [妒1 = ElE^Y]] 


由于 

E^Y = 1] = 1 
£?[^ = 0] = £：[(1 + ^) 2 ] 

上述两式成立的理由如下,若第一次实验成功，显然汉=1，从而况 2 = L 故第一 
式 成立. 若 y = 0,即第一次试验失败，则在此种情况下试验相当于重新开始，因此 
为了达到第一次成功所需实验次数变成 W + 1，我们得到第二式.这样 
EIN 2 ) = E [ N 2 \Y = 1) P{Y = 1> + E [ N 2 \Y = 0] P{y = 0} 

= p + ( l - p ) E((l + N ) 2 ] = 1 + (1 - p ) E [2 N + N 3 ] 


在第 4 章例 8 b 中，已经指出 E [ N ] = 1/ p , 因此我们得到 


由上式解得 
从而 


£；[^] = 1 + + (1 - P 淳 2 ] 

E\N 2 ] = ^ 

Var(JV) = EiN^- (酬) 2 = ^ ~ (；)* = ^ 























•1 迟发生 





这样,利用 （5.1 a ) 与 (5.1 b ), 可得到 

{ [ P ( E\Y = y ) P(Y = y ) Y 为离散型随机变量 
% (5.8) 

J P ( E\Y = y)Mv)dy y 为连续型随机变量 
若 y 是离散型随机变量，并且只取值 yi,- -,yn, 利用记号 F* = {y = Vi }, 方程 
(5.6) 变成 



其中 F u ---, F n 互不相容，且这些亊件的和是一个必然亊件，此时我们称它们形成 
—个完备事件组.这个公式就是概率的全概公式 • 

例 5k (最优奖问题）设有 n 个不同的奖陆续出台，当一个奖出来时，你可以 
拒绝或接受.当然，你接受了这个刚出台的奖，你不能再领以后出台的奖.若你拒 
绝刚出台的奖，那么你还有机会领以后出台的奖.当一个奖出台时，唯一的信息是 
刚出台的奖与己经出台的奖进行比较.例如，当第5个奖出台时，你只能与前4个 
已经公布的奖进行比较.我们的目标是希望得到最高奖,或找到一种策略使得得到 
最髙奖的概率尽可能大.假设出台的奖项的 r *! 种次序都是等可能的 • 

解： 令人惊讶的是,我们可以得到很好的结果.对于固定的 A :，0 < fc < n , 考虑 
如下的策略.首先拒绝前面 fc 个奖项，然后从第 fc + 1 个奖项出台开始算起，只要 
发现新出台的奖项比前面己经发布的好就接受这个奖项，否则就拒绝这个奖项而观 
察出台的下一个奖项，记巧 （ 最优）表示利用这个策略得到最优奖项的概率，记 X 
为最优奖项出台的次序，例如最优奖是第5个出台的奖，则 X = 5. 利用全概公式 

朽(最优)=最优1义= om =<) = ^ E 汽(最优1义=4 

若最优的奖项在前面的 fc 次发布，按这个选奖的策略，每次都拒绝拿奖，因此，不可 
能拿到最优奖.这样 

i^(*tt|X = i) = 0 

另一方面，若最优奖的位置 i 在 fc 之后，即 i > *，那么就有可能拿到最优奖.如果 
前面 i - 1个奖项的最大值奖的位置在前面的 fc 个奖中,那么，随着奖的出台，一直 
到 i - 1都是拒绝领奖,直到最优奖 i 发布时,按规则接受最优奖.现在假定最优奖 




三前面 i - 1 个奖项中，最高奖的位置在1, • • • ，< -1处是等可能的. 
i|x = *) = ■?{ 前面 i 一 1个奖中，最高的奖项在{1，2,…，耐中|叉 = i 
= <>fc 

辱到 

:优 ) = H 占 ^ 二= > ( 早 X >» © 

g ^( x ) = 0=^ln (兰) = 1^**^ 

I优）《 g ⑻，当取 A: = n/e 时，最优）》 g ( n / e ) = 1/e, 最优策時 
U = n/e 个奖项，然后等待出现第一个比以前的奖项都大的奖项， 
t 按这个策略，拿到最优奖的概率近似地等于 1/e « 0.367 88. 

大部分人对于以这么大的概率♦到最优奖感到吃惊.一般认为3 








泠布 .令； f 为 Ui, -,U„ 中小于 1/ 的变量个数，由于 u u …， U n 和I；具有 
泠布 ，在 n +1个变量的排序过程中 y 为最小， f/ 为第2小，…， J7 为最大，这 
种可能性是相同的，因此X等于0,1，2,3, . •. ， n 这 n + 1种可能性也是相同 
又由于当给定 U = p 的条件下, Ui^U t i = l,- ■ ,n 的个数的分布为二项分布， 
赛数为 (n,p). 这样,X的分布具有很直观的 解释. ■ 

例 5m 设X和 y 为两个相互独立的随机变量,其密度分别为 /x 和 /y. 计 
P{X < Y}. 

解： 先将 y 的值固定,利用公式 （5.8), 得到 

P{X <y> = P{X < Y\Y = y}f Y (y)dy 
= J 00 oo P{X<y\Y = y}My)dy 
=f^PiX < V }fy(y)dy 独立性 


Fx(v) = £^/x(*)dx 


解： 利用公式 (5.8), 我们得到 
P{X+Y<a} = J°^P{X + Y<a\Y^ y}Mv)dy 
=j P{X + y<a\Y = y}fy(y)^V 


条件方差 

我们既然可以定义 Y^yzrx 的条件期望，也可以定义 F V 之下X的 
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条件方差，它由下式定义 

Var(jc|y) = £[(x - £[x|r]) 3 |y] 

Var(X|10 是X和它的条件期望之差的平方的（条件）期望值.或者，换句话说， 
Vax(X|YO 在 y 已知的条件下与通常的方差的定义完全一样,不过求期望的过程换 
成了求条件期望. 

条件方差和方差之间具有某种联系，人们通常利用这种关系计算一个随机变童 
的方差-首先，和普通方差的公式 Var(X) = E [ X 2 ) - (坷 A"]) 2 -样，条件方差也有 
Var(X|r) = E \ X 2 \ Y ) - { E [ X \ Y ]) 3 

由此得到 

£；[Var(X|y)] = E [ E [ X 2 \ Y )] - E[(^[X|y]) 3 ] = E [ X 3 ] - E[(E[X|r)) 2 ] (5.9) 

同时， 

Var(E[X|y]) = E[(£；[X|y]) 2 ] - ( E [ E [ X \ Y ]]) 2 = E [( E [ X \ Y ]) 2 ) - ( E [ X ]) 2 (5.10) 
将 （5.9) 式与 (5.10) 式相加,我们得到如下 命题： 


命题 5.2 (条件方差公式） 

Var(X) = E[Var(X|y)] + Var(^[X|y]) 


例 5o 设在任何长度为 t 一段时间区间 (0, t ) 内到达某火车站的人数是一个 
服从泊松分布的随机变量,均值为 At. 现设火车在 (0.T) 这个区间内随机到达，即 
到达时间是 (0,T) 上的均勻分布,并且它与到达火车站的人数独立.求火车到达时 
上火车的旅客人数的期望和方差. 

解 ：记尺⑷表示 t 以前到达车站的人数，/表示火车到达时间，能够上火车 
的人数为 N(y) fc (假定火车到达后立即开走，而 y 以后到达火车站的人只好等下— 
班火车).把 y 的值固定,设为条件，得 

E [ N { Y)\Y = i] = = *] = E[JV(t)] 由 / 与 N { t ) 的独立性 

= At iV ⑴是泊松随机变童，平均值为 M 

因此， 

E[jv(y)|y] = Ay 

两边求期望，得到 

寧 (y)I = aem = 咢 

为求 Var(JV(y)), 利用固定 y = t 之下的条件方差公式 





例 5p (随机个数随机变量之和的方差）设 X u Xw 是一个独立同分布的 
随机变量序列， W 是一取自然数的随机变量，并且独立于序列 {X it i > 1}, 为计算 
先固定〜的值作为条件 

E 民不叫= NE[X],yax = iWar(X) 

其中 X 的分布与不的分布相同.再利用条件方差公式可得 




: E[N] Vbi (X) + {E[X]) 2 Vfa(N) 


7.6 条件期望及预测 

有时候,在实际问题中会遇到这种情况,某人观察到随机变量 A ■的值，基于X 
的观察值，要对第二个随机变童 y 的值进行预测，通常用表示预测值，即当 
X的值 CT 被观察到以后, s ⑷就是 y 的值的预测值 ■ 当然，我们希望选择3(义）接 
近 y, 选择 s(x) 的一个准则是极小化 B[(y- S (x)) a ]. 现在我们指出在这个准则 
之下, y 的最好的预测值为 g{x) = E\r\x]. 


E[{Y- g(X)) 2 \ ^ E[(Y- E[r|X]) a ] 


证明： 

E[(Y- s(X)) 2 |X] =E[(X- + 五 [T|X] - g(X)) 2 \X] 

=E[(Y- B[y|X]) a |X] + E[{E\y\X] - g{X)) 2 \X] 
+ 2E[(Y - E\Y\X])(E\y\X] - ff(X))|X] 

然而,对于给定的 X 值， E\r\X\-g{X) 就是一个常数，因此 





m- E\Y\X])(E\y\X]- 9 (X))|X] 

={E[Y\X]- g(X))E\Y~ S[T|X]|X] 

=(E\Y\X]~ 9 (X))(E[y|X] - £：[r|X])=0 (6.2) 

这样，由 (6.1) 式和 (6.2) 式可得 

£[(y - fl (x)) a |jf] > E[(X- E\y\x]) 3 \x] 

上式两边再求期望即可得到 命题的 结论. 口 

注释此处可以给出一个更加直观的证明，当然，在证明的严格性上要差一点. 
很容易证明 E[(Y-c)^]^c = E[Y] 时达到极小值 （ 见理论习题 1). 因此在我们没 
有任何数据可用时，在均方误差最小的意义下， F 的最优预测就是 E[Y ]. 现在设 
得到了久的观察值： r, 此时预测问题与没有数据时的预测问題完全一样，只是原来 
y 的期望改为亊件= a：} 之下的条件期望.因此, y 的最优预测是 y 在 x = I 
之下的条件期望. ■ 

例 6a 设身高为 z 英寸的父亲,其儿子的身高具有正态分布，均值为0： +1,方 
差为 4. 现设父亲的身髙为6英尺,试预测其儿子成长以后的身高. 

解： 设父亲身高为X，儿子身商为八两者关系可表示为 
Y = X + l+e 

其中 e 为正态随机变量，独立于夂并且期望为0,方差为 4. 对于6英尺的父亲， 
其儿子身高的最优预测为 E[Y\X = 72]. 

E\y\X = 72] = £?[A- + l + e|X = 72] = 73 + E[e\X = 72] 

= 73 + E(e) 利用 A ■与 e 的独立性 
= 73 ■ 

例 6b 设 A 处发射一个强度为 S 的信号，在 B 处会接收到一个强度为 A 的 
信号,是一个正态随机变量，其期望为5,方差为 1. 现在设发射端的信号服从正 
态分布,其期望为 M， 方差为当接收端收到的的值为》•时,求发送信号的最 
优估计？ 

解： 首先计算发射端发送信号的 S 在给定之下的条件密度 

/s,^|r) = = ’K 啊 = 价 -(•-)" 々 (_ 

其中凡不依赖于 s. 注意下面的恒等式 

卜(洁)*卜=窨卜轉)、 





其中 C U C 2 均不依赖于 s, 因此条件密度为 

其中 C7 与《无关.由上式可知,在给定 i? = r •之下，5的条件分布为正态分布，其 
期望和方差分别为 

E[5|/Z = r] = 乂 :工 ,Var(5|/l = r) = — 

再利 用命题 6.1, 在给定 fl =»•之下，对 S 的均方误差最小的估计为 
馨 = r i = i^+r^ r 

由上式看出，条件期望提供了关于 S 的信息.它是 /i 和 r 的加权平均.而两个权 

值之比为1与 <7 2 .其中1代表信号 S 发出后接收到的信号的条件方差.而《7 2 表 

示发送倌号的方差.发送信号的方差越大， M 的作用越小 （M 代表先验信息)，同时， 
接收到信号的条件方差代表传擂信号的误差（现在为 1), 这个误差越小，则 r •的作 
用越大. ■ 

例 6C 在数字信号处理过程中必须把连续数据离散化.其过程 如下： 取一组递 
增数列， o<,* = 0,±l,±2,- - ) 使得 .Urn^Oi = oo^Um^Oi = -oo . 当 X e (a<，o< + i] 
时,选一个代表值 i/i ，这样将连续散化.表示离散化后的值,/与X 
之间有如下的 关系： 

Y = yi Oi<X ^ o < +1 

Y 的分布由下式给出 

P{Y = yi} = i*x(oi+i) - Fx(ai) 

现在我们的目标是要选择各区间的代表值 I /“ i = 0，±1,±2,…，使得 E[{X-Y) Z ] 
达到极小. 

⑷找到最优值1/^ = 0,±1，-.. 

对于最优的 y, 指出 

(b) E\Y] = E[X), 也即均方误差最小意义下的离散化保持均值不变 • 

⑻ Var(y) = Var(X) - E[{X - Y)% 

解： W 对于任意的离散化随机变量 F 利用命题 5.1 的结果，有 
E[(X-Y) 2 ] = Y, E[(X- yi ) 2 \ai <X《 ow-ilPfOi <X^Oi+i} 

令 

I = i Oi < X < Oi+i t = 0,±1, ■•- 





E[(X- tt ) 2 |oi < X < ana】= E[(X - yi ) 2 \I = i] 


利用命题 6.1 的结论，当 

时, E[(X- yi^ai <X( a^j 达到极 小值. 因此, K = E\X\I \ 是最优的离散化随 
机变量.在最优的选择之下 

(b) E\y\ = E[E[X\I]] = E[X] 

(c) Var(X) = E\Vax(X\I)] + Var(£；[X|/]) 

= E[E[(X - y) 2 |/]] + Var(y) = £?[(X- y) 2 ] + Var(y) 

显然成立. ■ 

在某些情况下， x 和 y 的联合分布不完全知道，或者，即使联合分布知道， 
E\Y\X = *] 的计算也十分复杂.然而，如果我们知道 A ■和 y 的期望、方差和相关 
系数，我们至少可以求出依赖于X的最优线性预测. 

为求得 y 的最优线性预测，我们需要选择线性预测 a + bX 的系数(X和6 ,使 
得 E[(Y -(o + WQ) 2 ] 达到极小值.为此，先将 E[{Y - (a + 6X)) 2 ] 展成一个 a, b 的 
多项式: 

E[(Y - (a + bX)) 2 ] = E\T 2 - 2aY - 2bXY + o 2 + 2abX + I^X 2 ] 

= E\Y 3 ]- 2aE\Y]~ 2bE[XY] + o 2 + 2abE[X) + b 2 E[X 2 ] 


将上式对 a 和 fe 求偏导数得到 

^E[(Y - (a + 6X)) 2 ] = -2E\Y] + 2a + 2bE[X) 

^ b E[(X -(a + 6X)) 2 ] = -2E[XY] + 2aE[X) + 2bE[X 3 ] 
令偏导数为0,求解关于 (a, 6) 的方程组 (6.3), 得到 


(6.3) 


其中 p 为；的相关系数,# = Var(r),a2 = Var(X). 容易验证由（6. 4 )给出的 
a,6 值使得 E[(Y- (o + 6X)) 2 ] 达到 极小. 因此,在均方误差意义下, 的最优线性 


预测为 


^ y + ^.{X-n sc ) 


其中〜 = = 
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这个线性预测的均方误差为 

五 [(y- P g(x 一 〜))] 

= E[(Y- 外 ) a ] + P 2 ^E[(X- /lx) 2 ]- 2p^E[(Y - Hy)(X-^)] 

=<7* + p 2 ^ - 2/ j 2 ^ = al{l - p 2 ) (6.5) 

由 （6.5) 看出，当 p 接近于 +1 或 -1 时，其最优线性预测的均方误差接近于 0. 

例 6d 当 A", y 的联合分布为二元正态分布时，由于X给定之下 y 的条件期 
里为X 的线性函数，因此 y 的最优线性预测就是最优预测，在第6章例 5c 已经 
给出，在正态情况 

E\y\X = x] = Hy + p^(x - Hx) ■ 

7.7 矩母函数 

随机变量X的矩母函数 M{t) 由下式定义 
M(t) = £?[e* x ] 

{ ^e te p(x) A •离散, P (:c) 为其分布列 

厂 e te /(*)d® X连续, /(a:) 为其密度函数 
其中 t 为实数.我们之所以称 M ⑴为矩母函数,其原因是X的所有阶矩都可以从 
M ⑷在 f = 0的各阶微商得到.例如 

Af'(t) = | 五 [e tx 】 =五[去 (#)] = E[Xe tx ) (7.1) 

其中我们假定微商和期望两个运算可以交换次序，即我们假定在离散情形下，下式 
成立 

在连续情形下， 

A[/e«/(xXir]=/i[e**/(x)|d* 

这个假定在通常情况下能够验证.特别是本书中提到的分布，都能满足上述要求 • 
因此，在 (7.1) 中，令 * = 0 ,得 


M\0) = _E[X] 



类似地， 


M"(t) = ^M f (t) = ^E\X^) = [ 去 (Xe«)] = E[X 3 e tx ) 

由此得到 

M w (0)= 财 2 ] 

一般地，对 M ⑷求 n 次导数可得 

Af (B >(t) = n>l 

从而 

M ⑻⑼ = E\X n ) n>l 
现在我们对某些常见分布计算 M(t). 

例 7 a (二项分布(参数为 （ r »， p ))) 设 X 具有二项分布,参数为 （ n , p )， 则 

M(t) = E[e tx ] = 矣 # (3^(1- P) n ~ k 

=g© (pe*) fc (l-p) n - fc = {pe t + l-p) n 


最后一个等式利用了二项式展开定理.两边求微商可得 
Af , (t) = n(pe t + l-p)"-V 
故 

E[X] = M\0) = np 

再求一次微商得 

M"(t) = n(n - l)(pe* + 1 - p)"_ 2 (pe*) 2 + nipe* + 1 - p)"- 1 〆 

故 

E[X 2 ] = M'O) = n(n - l)p> + np 


夂的方差为 

Var(X) = E[X 2 ] - (B[X]) 2 = n(n- 1)〆 + np -nV = np(l -p> 


这验证了之前所得的结果. 

例 7b (泊松分布（参数为 A)) 设X的分布为泊松分布，参数为 A, 则 


= e-g 


= e_ V 8 * = exp{A(e* - 



求微商可得 


M / (i) = Ae*exp{A(e t -l)} 

M'\t) = (Ae t ) 2 exp{A(e t -l)} + Ae* exp{A(e t -1)} 


由此可得 

E[X] = M\0) = A 
职 2 ] = J^0) = A a + A 
Var(X) = E[X 2 ] - (E[X]) a = A 

因此,泊松随机变量的期望和方差均为 A. ■ 

例 7c (指数分布(参数为入 )） 

M(t) = 称 r— 

= Ajf e-( A -*>-dc =^- t m<\ 

由上式可知，指数分布的 M(t) 只对 * < A 有定义.对 M(«) 求微商， 
M，W= (A3t)5 = 

因此 

E[X\ = M\0 ) =全 E[X 2 ] = M 、 0)=; 

其方差为 

Var(X) = E[X 2 ]-(£；[X]) 2 = ^ ■ 

例 7d (正态分布）首先计算标准正态随机变量的矩母函数•令 Z 为该标准正 
态随机变量， 

= 去 />{-¥4}—•%/->-— vs 

因此,标准正态随机变董的矩母函数为 M z (t) = e**/ 2 . 对于一般正态随机变量，只 
需作变换（见 5.4 节 )X = M + aZ 其中 M,a 2 是久的期望与方差， Z 为标准正态随 
机变量.此时 

M x (t) = E[e tx ] = B[e*^ z >] = £[e^e toZ ] 

= e^E^ 2 ] = e^MzfUr) = e* a ， 2 = exp 



M , x (t) = { l i + ta 2 )exp^^- + J 
ACx(*) = (A* + *^ 2 ) 2 exp|^ + M<J+^ 2 exp|^+/i«J 

由此可得 

五 [A1 = M\0) = m 
五【尤 2 ]=财"沏=沪+ ^ 

因此， 

Var(X) = E[X 2 ] - (£?[X]) 2 = a 3 
表 7.1 和表 7.2 给出了某些常用的离散和连续分布的矩母 函数. 



分布列 

矩母函数 均值 

方 差 

二項分布 

参数 （ n , p ),0< p < 

O ^ a - pr - 
11 *_0,1,》 

( p ^+ i - p) b «p 

np ( l - p ) 

泊松分布 
参数 A >0 


« p { A ( e «- l )> A 

入 

几何分布 

p ( l - p )'- 1 

vt 1 


负二项分布 
参数 r ,«0< p <] 

丨 0-->" 

: “-( r :』 1 



表 7.2 

连壤概率分布 



密度函数 

矩母函 R 均 值 

方 S 

( a , 6) 上均匀分布 

/w 妒： r 

6 •*»_# a + 6 

¥ 

指数分布 

参败 A >0 

-r ::: 

rr t I 


r 分布 

参数 («, A ), A >0 

r Ae -^ tA *)* -1 
/(*) = | ^ 

::: (-)'M. 

i 

正态分布 
参数 ( M ,^) 

吨卜 + 并 /2 > - 

<7= 



My(t). 记 Mjf +y (t) 为 X + y 的矩母函数，则 

Mx+y(t) = B[e*< Jf+r )] = E[e tx e tY ] = E[^ x ]E[ e tY ) = M x (t)M Y (t) 

其中倒数第二个等式利用了命题 4.1 关于独立随机变量乘积的期望的计算公式 • 
矩母函数的另一个重要特性是，矩母函数唯一地确定了分布.设⑻是X 
的矩母函数，并在 t = 0的某一邻域内有定义且有限，则久的分布被 M x (t) 所唯 
一确定.例如，若 

mxw^QV+i) 10 ; 

则由表 7.1 可知X的分布为二项分布，参数为 （10 , 1/2). 

例 7e 设随机变量X 的矩母函数财⑴=求 P{X = 0}. 

解： 由表 7.1 知， M(t) = e%'- 1 ) 是泊松随机变童,参数为 A = 3,这样， P{X = 
0} = e_ 3 . _ 

例 7f (独立的二项随机变量的和）设X和V为相互独立的二项随机变置，其 
分布参数分别为 （n,p) 和 (m,p),X + Y 的分布是什么？ 

解： X + y 的矩母函数为 

MxMt) = Mx{t)M Y (t) = (pe* +1 - p) n (pe* + 1-p) m = (pe* + 1 - p) n+m 
然而， (pe^l-p)^"* 是二项分布的矩母函数，其相应的参数为 （》» + m,p). 由矩 
母函数唯一确定分布，知X + y 的分布为二项分布，参数为 （n + m,p). m 

例 7g (独立的泊松随机 变邐: 的和）设X, y 为相互独立的泊松随机变量,相应 
参数为乂,久 2 ,求叉+ 1^的分布. 

解：由 M x+ Y(t) = Mx(t)M Y (t) 

= exp{A l (e*-l)}exp{A 3 (e t -l)} 

= exp{(Ai + A a )(e*-l)} 

知 X + y 的分布也是泊松分布，分布参数为 M + A 2 , 这轮证了第6章例 3e 的 
结果. ■ 

例 7h (独立正态随机变量之和）设X和 y 为相互独立正态随机变量，其参 
数分别为 （W ?) 和剡 X + y 也是正态分布，期望为 Mi + M2, 方差为 
<r? + «r!. 

解： M x+ y(t) = M x (t)My{t) 


=exp { 学 + AUt} exp { 字 + M2*} 

=exp j(fl^ +((11+M , t } 



这个函数是期望为妁+ M2 ，方差为4 4的正态随机变量的矩母函数•由 

于矩母函数完全确定其分布函数,故X + F 的分布为正态分布,其期望为灼+ M2, 
方差为 ■ 
例71计算自由度为 n 的X 2 分布的矩母函数. 

解： 我们将具有 x 2 分布的随机变量分解成 zl + ：. + zl, 其中…，为 
相互独立具有标准正态分布的随机变量，令 M(t) 为其矩母函数.由前面论述可知 
M(t) = (E[^)T 

其中 Z 为标准正态随机变量.现在， 

別〆1 = 去厂 e tea e-*V a d® 

= H°° e _*Wd* 其中 ( t 2 = (1 - 2t)-» 

= <r = (l-2t)- 1 / 3 

上述最后第二个等式利用了 “密度函数之积分为1”的结论.因此 

Af(t) = (l-2t)~ n/a ■ 

例 Tj (随机个数随机变量之和的矩母函数）设 X u Xv 为一独立同分布随 
机变1：序列.又设 7V 为取值于正整数集合的随机变童，且与 Xi,i > 1相互独立. 
现在需要计算 

y=tx, 


的矩母 函数. （在例 5d 中 y 可以解释为某一天百货公司的营业额，它是某一天顾 
客消费的总和,此处每一个顾客的消费额，以及顾客人数都是随机变量.） 

首先,求出 w 固定之下的条件期望. 

£ H 名4卜》卜卜掉*}卜= „] 

= B jexp ” 


其中 

因此 

这样 


M x {t)=E[e tXt ) 
E[e ty \N] = (M x (t)) I，r 
My(t) = E[(M X (t)) If ] 



= (五[尤] ) 2 (E[N 2 ] - E[N\) + E[N]E[X 2 ] (7.3) 

= Emm 3 卜 {E[X}) 2 ) + (E[X])^E[N^] 

=£[JV]Var(X) + (£；[^]) 3 £；[^] 

由 （7.2) 和（7.3)，得 

Var(r) = E[N\Vax(X) + (E[X]) a (£[A^ — (f?[iV]) 2 ) 

= E[N]Wu(X) + (£?[X]) 2 Var(AT) _ 

例 7k 令 y 为具有（0, 1) 上均勻分布的随机变量,假定当给定 Y = p 的条件 
下，； f 的分布为二项分布,其参数为 （n，p). 在例 5k 中我们已经推出X的分布为 
有限点集 {0,1, •••,«} 上的均匀分布.现利用矩母函数方法建立这个结论. 

解： 首先将 y 的值固定，在 y 值固定的条件之下，利用二项分布的矩母函数 

S[e tx |l , = p] = (pe t + l-p) n 
由于 y 又是 (0,1) 上均匀随机变量,对上式求期望得 

£；[e tx ] = ^(pe* + 1 -P) n dP = 7ZT/" 作变童替换2/ =界* + 1-史 

上述函数是有限集合 {0,1,• ••,«} 上均匀分布的随 机变量 的矩母函数.由于矩母函 
数唯一确定其分布，因此久的分布就是{0,1，…， n} 上均匀分布. _ 






M(h ，…, 心辦山+…+以】 

Xi 的矩母函数可以从联合矩母函数中得致 ，即： 

M Xi { t ) = E [ e tXt ] = M(0, …，0, M)， …， 0) 

其中 t 的位置刚好在第 i 个变量的地方. 

可以证明， X u --, X n 的联合矩母函数唯一地确定了它们的联合分布.这个结 
论的证明己经超出了本书的范围.利用这个结论，可以证明， X ir -, X n 相互独立 
的充要条件是 

= M Xn ( tn ) (7.4) 

若不，…，尤„相互独立，則 

M(ti,.. • ， tn) = £[e (tlXl+ • +t - x " ) J = E [ e tlXx ■- e*" x "】 

= £；[# 叫… 由独立性 

= M Xx ( tl )- M Xn { tn ) 

另一方面，若 （7.4) 式成立，我们首先指出 （7.4) 式两边都是矩母函数，等式右边 
与分布函数 FxM- ^xM 相对应.等式左边与 （J^, …， X„) 的分布函数 
F(X lt - - , X n ) 相 对应. 由于矩母函数唯一确定分布函数， (7.4) 说明对任意X!,••-, 
® n ，有 

F ( xi ，• - ,»«) = 

其中 F Xt 为不 的分布函数.这个等式说明 X ir .., X n 是相互独立的 • 

例71设 A ■和 K 为相互独立且同分布的正态随机变量，期望为方差为 
第6章例 7a 证明了 X + y 与X _ y 相互独立.现在用矩母函数的方法证明这个 
结论. 

£；| e t(x+y)+^x-y)] = £.j e (t+»)x+(t-.)vj = £?[ e («+»)X]^[ e (t-.)V] 

_ e M(t+*)+ff a (t+«) a /2 e M(t-*)+»»(t-«) a /2 

= e a^tV* = E[e^ x+Y ^]E[^ x -^] 

利用随机变童独立的充要条件 (7.4), 可知 X + y 与是相互独立的. ■ 

下面我们用联合矩母函数的方法去验证第6章例 2b 的结论 • 

例 7m 假设出现的亊件数是一个随机变童，其分布为泊松分布,参数为 A. 又 
假设这些事件独立地以概率 P 被记录下来，指出记录下来的事件数和未记录下来 
的事件数是相互独立的泊松随机变量，其参数分别为 Ap 与 A(l-p). 

解：记 X为事件发生数， X c 为记录下的事件数，则未记录下来的事件数为 
X - X c , 首先计算条件矩母 函数. 








p = Corr(X,0) = Corr(Z + e,6) 

Cov(Z + e,e> a 

= v^Var(Z + 0)Var(0) = Vl + tr 1 

由于 (x,e) 为二元正态分布，因此 x = * 之下 e 的条件分布为正态分布，其期 
望为 

E [ Q\X = xj = £[0】+ 卜 — 五 沐1) ~^ + i + ^ x _ M ) 

方差为 

Var(0|X = ®) = Var(0)(l _ /) = 

(关于二元正态分布的条件分布的计算可见第 6 章例 5 c .) _ 

7.8.2 样本均值与样本方差的联合分布 

设 X u …， X n 为独立同分布正态随机变量序列，其公共分布参数为(^^ 2 )- 
记文=为样本均值，由于独立正态随机变量的和也是正态随机变量，因 
此X也是正态随机变量,其期望为 M ， 方差为见例 2 c 和例 4a). 现在研究随 
机变量序列-尤，-尤，由例 4 e 可知 

Cov (尤，不一尤> = 0 i = l，"，n (8_1) 

现在设 y 为正态随机变量， 且与 H"，X n _ 文 相互独立，其期望为 M， 方 
差为 «7 2 /n, 不难验证 y,Xi-X, --,X n -X 为联合正态随机变量 • 另一方面， 
随机变量组 X,X 1 -X,- -,X n -X 也是联合正态的随机 变量. 同时，可以证明 

















为了定义一般随机变量的期望，我们需要给出斯蒂尔切斯积分的概念.首先， 
对于实函数 g, 积分 f^g(x)dx 是通过下式定义的 

J fl(x)d® = lim53 9{Xi)(xi - ®4_i) 

其极限过程是这样定义的，对于 [a, 6] 的分点， a = x 0 < 町 < …< *„ = 6,当 
t max n (®j - s<-i) -* 0和 n - m » 时,求相应和数的极限. 

对于任意一个分布函数 F(x), 非负函败 s(:t) 在区间【<*,«»】上的斯蒂尔切斯积 
分是这样定义的 


j\(x)dF(x) = - F( Xi .i)) 


其中的极限过程与通常积分定义中的过程—样，即 a = z 0 < A <…< Zn = 6, 
.maxjxi-x^i)-0,n-oo. 进一步,在实数轴上的斯蒂尔切斯积分由下式定义 

厂霣㈤從⑻=•匕/ ff(x)dF(a:) 


最后，对于一般的函数 g, 定义 


f»(*) g{x) > 0 

\o 9(x) < 0 




u 


s ⑻ > 0 
g(x) < o 


p 和 3 - 都是非负函数，称作 s 的正部和负部， sb) = s+(*) -s-0«0 •对于9⑻的 


斯蒂尔切斯积分，可由下式定义 


当二 
时称为 


厂咖 ) 岭 )= J^g + {x)dF(x) - 

疒⑷ dF(:c) 和 /!^fl-(x)dF(x) 不都为 +oo 时， fl(*)dF(*) 有定义，此 
/ZffMdF(x) 存在. 




可以证明，当 X 为离散随机变量时， 

J^xdF(x)= 5^ xp(x) 

其中 p(aO 为X的分布列.当X为连续时 

J xdF(x) = J xf{x)6x 
其中 /Oc) 为久的密度函数. 

读者应该明白 （9.1) 式的直观含义.考虑近似和 

将X的近似值為乘以X落入区间 (xi-uxi] 的概率，再将这些乘积加起来，就是 
X 的期望的近似值.当这些分割区间的长度越来越小时，就得到 A" 的期望值. 

利用斯蒂尔切斯积分可以将期望的定义变得简洁，它抓住了期望这个概念的本 
质.例如，斯蒂尔切斯积分可以将离散和连续的两种情形统一起来.在教材中也不 
必分离敝和连续两种情形给出定理的证明.斯蒂尔切斯积分的性质也与通常积分 
性质相同.本章中所有性质都能推广到一般情况. 

小 结 

设具有联合分布列 d (*， v )， 则 

E\g{X, Y)] = ^2^2g{x, y)p{x,y) 

若它们具有联合密度 f(x,y), KU 

e \ s ( x , y )] = / oo / oo ^ x * y)/(*.w)d®dw 
若令 g(x,y) = x + y, 可得 

E[X + Y] = E[X] + E[Y] 

这个公式可推广到 n „ 

X,Y 的协方差由下式定义： 

Cov(X,y) = E[(X- E[X]){Y- £[y])] = E[XY]~ E[X)B\Y] 

下面的恒等式十分有用： 

*=1 J=1 i=l J=1 



当 n = m,Xi = Yi,i = 1，2,…， n 时， 

=f；Var(X i ) + 2j；X；Cov(X <> X i ) 

X,Y 之相关系数 p{X,Y) 由下式 定义： 

Cov(X,r) 

P ⑽ = A 虹 (X)Var 两 

若为二元离散随机变量,则在^ = 1/的条件下 ，叉 的条件期望由下式 给出： 
E[X\Y = y) = Y t xP{X = x\Y = y} 

如果是二元连续的，则 

E[X\Y = «] = /: ^fx\y(x\y)dx 
其中 s 

fxiY(XiV 卜黯 

为 y = y 条件下 X 的条件密度.条件期望的性质与通常期望的性质是类似的，只 
是在计算中，所有概率都是 F = 1/之下的条件概率. 

记 Epqy] 表示 y 的函数，当= J /时，其值为 E[X\Y = y ]. 关于条件期望的 
—个重要的恒等式为 

E【X1 = E[E[X\Y]\ 

在离散情形下，是 

E[x\^ E ^ Y= y^ Y= y^ 

连续情形下，是 

E[X) = J ^ E\X\Y = y)f Y {y)dy 

上述的公式可以用来计算 B[XJ. 其方法是先固定 Y = y, 求出条件期望 E[X\Y = yl 
再对 y 求期望.此外，对于毎一个亊件 A P(A) = £[/>»]，其中^4是亊件4的示 
性函数.我们也可以利用上述关于期望的计算公式来计算 P(>1) - 
x 在 y = »之下的条件方差由下式定义： 

Var(X|y = V) = E[{X- E[X\Y = |/J) 2 |r = »] 

记 Var(X|y) 表示 y 的函数，在 y = 1/处， Var(X|y) 的值是 VarWl" = V).下面 
的公式称为条件方差 公式： 

Var(X) = 五 [Var(X|ni + Var(J5[X|y]) 

设我们可观察到随机变量 X 的值，我们希望根据叉的观察值，预测随机变量 F 的 
值,在这种情况下， E\Y\X] 是使均方误差达最小的预测值. 




随机变量 X 的矩母函数由下式 定义： 

M(t) = £[e«] 

X 的各阶矩都可以从 M ⑴的各阶微商在 t = 0处的值得到.特别地， 

聊"】 = ^^)1=0 n = 1 > 2 •- 

矩母函数的两个重要性 质是： 

0) 随机变量的矩母函数唯一地确定它的分布； 

(ii) 独立随机变量和的矩母函数等于各随机变童的矩母函数的乘积 • 

这个结果可使下列结果的证明 简化： 独立正态（泊松或 r) 随机变量的和的分布仍 
然为正态（泊松或 r) 分布. 

若 x u "， x m 均为有限个相互独立的标准正态随机变量的线性组合，则称 
X u "，X m 为联合正态 • 其联合分布由 ElX^CoviXuX^.iJ = 1,…， m 所 
确定. 

设 A ，…， ；f„ 为独立同分布的正态随机变量序列,期望为方差为 <r 2 , 则其 
样本均值 



和样本方差 „ 

沪=占 gw - 奸 

相互独立.样本均值X是正态随机变最望为 M, 方差为 oVm (n - l)S 2 /(r a 是 
X 2 随机变量，自由度为 n-1. 


1. —个玩游戏者同时掷一枚均 匀鲅子 和扔一枚均匀硬币.如果*币正面朝上,他贏得 戗子出 
现点数的两倍，否则贏得骰子点数的1/2,求他贏得的期望. 

2. —种名为 Clue 的牌戏是这样的，一副牌中含三种牌.第一种牌上画有不同的嫌疑 者，一 

共6 张； 第二种牌上画有不同的武器，也有6张：第三种牌上画有不同的房间，有9张. 

每种牌内抽取一张，游戏的目的是要猜出被抽出的3张牌 • 

(a) 一共有多少“副”可能的牌？（抽出的3张称为1副）在一种游戏中，当3张牌被选中 

以后，每个游戏者又从剩下的牌中随机地抽取3张.设某个游戏者抽到的3张牌中， 

有 S 张嫌疑者，有撕张武器，有 fl 张房间，又令X表示当该游戏者观察到自己的 



3. 一个游戏由一局一局组成,各局的结果都是相互独立的.每局中游戏的双方以相同的概率 

贏或输一个单位.记撕表示某玩家的净贏的局数.设某玩家的策略是这样的：当他第一 

次赢一个单位以后立即停止游戏•求⑷ P{W > 0>, (b) P{W<0},(c) B[W]. 














































100 人组成的集体, 
一年中刚好有3个人 
100人中不网生 
掷一枚均匀 K 子,求 
1号坛子含5个白3 

球放入2号坛子，表 


21. 设有100 

个人在同一天生日的天数的期 望值； 

( b ) 100人中不同生曰的天数的期望值. 

,求出全部6个点数至少出现一次所需掷骰子的次数的期望值 • 

5个白球6个黑球，2号坛子含8白，10黑.从1号坛子随机地取出两个 

,然后再从2号坛子随机地取出3个球，计算这3个球中白球数的期 

望值. 

搵示： 令不=1,如果1号坛子内的第 i 号白球是最后选出的3个球中的一个 ，■^ = 0, 
其他情况.令 y * = 1,如果2号坛子内第 i 号白球是最后选出的3个球中的一个, Yi = 0, 
其他情况.则最后选出的3个球中白球的个败为 T . i.xXi + T . i ^ yi - 
14. 一个瓶中含有两种药片，大的 m 片，小的 片. 毎天,病人随机地从中选一片，如果选到 

小的，就吃下去，如果选到的是大的，就掰成两半，吃掉一半，_下一半成为小药片，放进 

瓶内. 


提示： 定义 n + m 个示性随机变量，一类是®来 r » 个> 
吃掉一半以后成为的小药片，再利用，例 2 m 中的方法 


个小药片，另一类* m 个大药片 


提示： x 与 y 之间有什么戋 

25. 设 X U X 3 ，" 

Xn-i < Xn , 

提示： 首先计算 

26. 设 XuX 2,--, X n 为独立同分布并在 (0,1) 上均匀分布的随机变量序列，计算 
⑷ E —阳 ，… , X n )]-, ( b ) E [ xoia ( X lt - , X n )). 

•27. —共有 101 个物品放入 10 个盒子，显然至少有一个盒子包含多于10个物品，用概率方 
法证明此结果. 

*28. 设一个由《个元件组成的系统，这 r * 个元件样成一个 圆周. 毎一个元乎 

和工作.若这个》»个元件组成的系统中，不存在连续 r 个元件,其中至少有 fc 个失效，则 
这个系统正常运行，这种系统称为圆周的互 
个元件，其中8个失效,指出不可能安排出一个正常 
*29. —共有四种不同的优惠券，前两种优惠券组成 —S 
种为食品优惠券，后两种为®装优惠券 •） 彳 

p 1 , i = l ,2,3,4. 其中 pi = p ； 

集的优惠券数，并求 £[ X ]. 


r 个元件,其中至少有 fc 1 
»性系统 ， fc < r < n . 现在共有 47 
I 行的 (3,12,47) 圆周系统. 

券组成一组，后两种优惠券组成另一组（例如前两 
：) 每得到一个新的优惠券，它是第 i 种的概率为 

j = P4 = 3/8 .记 X 为达到下列目的之一所需收 







































































张支栗的面值 大于; T , 则接受， 








































































25 .记 ® 为标准正态分布函数， X 为正态随机变量，其均值为 M ， 方差 < r 2 = 1_我们要计算 
B [*( X )]. 为此，令 Z 为标准正态随机变量，且与 X 相互独立，令 



⑷指出 E [ I\X = *] = *( x ). ( b ) 指出 £[*( X )] = P{Z < X >. ( c ) 指出 £?[*( X )]= 

〜 I 為. 

提示 （ c ): X - Z 的分布是什么？ 

这个題目湄自统计学.我们将观察随机变童 X , X 的分布为正态分布，期望为方差为 
1,我们希望检验假设 M > 0•显然，当 X 充分小的时候,拒绝 /X > 0这个 假设. 若 X = *， 
则这个假设的 P 值定义为 /x = 0的隹定之下随机亊件 {X < x } 的概率（当 p 值小的时 
候，说明原来的假设可能是假 的). 由于当 M = 0 时， X 具有标准正态 分布. 因此, p 值为 
*(») ■当 p 为真值时, p 值的平均值为*(^). 












第 8 章极限定理 

8.1 引 言 

在概率论中，最重要的理论结果是极限定理.极限定理中最重要的是大数定律 
和中心极限定理.通常，当随机变童序列的平均值在某种条件下收敛到某期望值的 
时候,就是大数定律.另一方面，当大量随机变量之和的分布在某种条件下通近于 
正态分布时，就称为中心极限定理. 






8.2 初比♦夫不等式及典大教律 355 


由于（X - M ) 2 > fc 2 与 * 是等价的，因此 

马尔可夫不等式和切比雪夫不等式的重要性 在于： 当我们只知道随机变量的 

期望，或期望和方差都知道时，可以导出概率的 上界. 当然,我们知道概率分布时， 

就可以直接计算概率的值而不必计算概率的上界. 

例 2a 某工厂在一周内生产的产品的件数为随机变量,假定已知这个随机变 
量的期望值为 50. 

(a) 本周内产品超过57件的概率有多大？ 

(b) 如果我们进一步知道每周产1：的方差为25,那么本周产量在40到60之间 
的概率有多大？ 

解：记 X为本周的产量. 

(a) 由过去的经验只知道X的期望为 P = 50,而不知道X的 分布. 因此，我 
们不能计算相应的概率值,只能利用不等式计算出相应概率的界.利用马尔可夫不 
等式，得 

P[x>n] ,m^i 

(b) 基于与 （a) —样的原因，我们利用切比雪夫不等式 

故 

P{\x - 50| < 10} > 1 - J = | 

故本周内的产品在40到60之间的概率至少为 0.75. ■ 

由于切比雪夫不等式适用于所有的分布，因此，不能指望所得的概率的界与真 
实的概率很接近.下面看一个例子. 

例 2b 设X为（0, 10) 上具有均匀分布的随机变童，己知 E[X] = 5,Var(X) = 
25/3. 利用切比雪夫不等式可得 

P{|X-5|>4}<^g«0.52 

而实际上，这个概率为 

P{\X - 5| > 4} = 0.20 

由上式看出，我们只能利用切比雪夫不等式找到概率的界，但不能用来估计概率值 
本身. 






P{\X - n \ > 2 a } = > 2} = 2[1 - *(2)] » 0.0456 

两者相差很远. _ 

切比雪夫不等式的主要用途是证明理论结果，例如命题 2.3, 但是最重要的是 
证明大数定律. 


证明： 利用切比雪夫不等式，对任何 n 彡1 

P{|^- rt >i} = 0 

令 n 00,得 

。=-把叶太 -<*1 > 9=以-把忭 "I >出=^ 

结论得到证明. 


-和 }_ 


证明： 我们只在 Var (不）=«7 2 为有限的情形下证明此 定理. 此时 

利用切比雪夫不等式，得 


由上式看出，定理显然成立 • 

弱大数律最早是由詹姆士.伯努利证 明的. 他证明的大数律是一种特殊情况， 
其中 不只取 0或1，即久为伯努利随机 变量. 他对该定理的陈述和证明见于他的 
一本书《推测 术》， 这本书出版于1713年,是在詹姆士.伯努利去世后8年，由他 
的同为数学家的侄子尼古拉斯.伯努利整理 出版. 要知道，当时切比雪夫不等式还 






不为人知,伯努利必须借助十分灵巧的方法证明其结果.定理 2.1 是独立同分布序 
列的大数律的最一般形式，它由前苏联数学家辛钦所证明. 


8.3 中心极限定理 

中心极限定理是概率论中最著名的结果之一，用粗略的语言来说,大量的独立 
随机变 *： 之和的分布近似地为正态 分布. 因此,中心极限定理为计算独立随机变量 
和的有关概率提供了理论依据，同时也解释了现实世界中许多实际的总体的分布的 
频率曲线呈现钟形曲线（即正态的）的原因. 

下面叙述的是最简单的中心极限定理. 


定理 3.1( 中心极限定理）设 X lt X 2 , - 为独立同分布序列，其公共分布 
的期望为叫方差为则随机变量 

Xi + • • • + X n - n/j 
as/n 

的分布当 n -^ oo 时趋向于标准正态分布.即对任何 a e (- 00 , 00 ), 


证明的关键之处是下面的一条引理，由于证明涉及太多数学上的细节，我们只 
给出陈述. 


引理 3.1 设 Z lt Z 2 , ••-为一随机变量序列，其分布函数为 F Zn , 相应的矩 
母函数为 M Zn , n 彡1.又设 Z 的分布为&，矩母函数为 M Z , 若⑴— 
M z (t) 对一切 t 成立，則 F Zb (0- &(«) 对 F z (t) 所有的连续点成立. 


若 Z 为标准正态随机变量，則 M ,(«) = e **/2, 利用引理 3.1 可知，若 ⑴— 
e tS / 2 ，n -* oo , 則 F Zn ( t ) -► *(«),«-» oo . 

现在证明中心极限定理. 

中心极限定理的 证明： 首先，假定 M = 0, 〆 =1，我们只在不的矩母函数 
M ⑴存在且有限的假定之下证明 定理. 现在, Xi / y / H 的矩母函数为 

由此可知, sr=i Xi / vn 的矩母函数为.记 
L ( t ) = \ aM { t ) 





板 》 定理 


要证明定理，由引理 3.1, 我们必须证明 [M(t/y/n)] n - e^a.n-oo. 或等价地, nL 
-* e/2，n-*oo. 

下面的一系列等式说明这个极限式成立. 
n hm o nL ( t / v ^) = n lim -邱②;， 利用洛必达法则 

卞麵臟则 

这样，在 # x = 0 ，a = 1的情况下，定理得以证明.对于一般情况，只需考虑标准化随 
机变量序列, X : = (& - M ) 〆 ， 由于 E [ X ：] = 0, VarW ) = 1,将己证得的结果应用 
于序列；便可得一般情况的结论. 口 

注釋虽然定理 3.1 只说对每一个常数 A 有 


第一个中心极限定理是由棣莫弗在1733年左右给出证明的 • 


到的中心极限定理为第5章 4.1 节关于二项分布的正态通近提供了理论依 据拉普 
拉斯也发现了中心极限定理的更一般的形式，但他的证明不严格，事实上，沿用他 
的方法也不可能严格化.真正严格的证明是由俄国数学家李雅普洛夫在1901 〜 1902 
年间给出的. 

网站上有一个中心极限定理的棋块演示及计算结果，该模块将 n 个独立同分 
布随机变量之和的密度（分布列）演示 出来. 每个随机变量只取0，1，2,3,4共5个 


I 计箅结果. 
















p |-0.5 ^i Y 2 =i “ 0.5} = P |-0.5^ 0.5^| 

如果天文学家希望以95%的把握保证估计值与真值之差在 0.5 光年以内，他 
应作 n* 次以上重复测量， n* 满足 

2®(^)-1 = 0.95 SE =0.975 

由第5章的表 5.1 得 

f = 1.96 或 n* = (7.84) 2 » 61.47 
由于 n* 不是整数，因此他应作62次重复观测. 


前面的分析中有一假定，正态通近是好的 近似. 尽管 n = 62在通常情形下， 
与标准正态分布已经很靠近，但是 Z„ 与标准正态分布逼近程度还依赖于兄的 
分布.若天文学家对于正态通近还没有把握,他可以利用切比雪夫不等式.由于 



多大的 概念. 然而,均值为100的泊松随机变量可以看成100个均值为1的独立同 
分布的泊松随机变量之和，由此,可以利用中心极限定理得到近似解.记X为注册 
的学生数 


P{X > 120} = P { X ^ 119.5} 连续性修正 

-一 


此处,我们在应用中心极限定理时,利用了泊松分布的期望和方差相等这一事实- ■ 











最一般的）版本如下所述. 


定理 3.2( 相互独立随机变童序列的中心极限定理）设右,/ 2 ,…为相互 
独立的随机变量序列,相应的期望和方差分别为叫=^1，^= Var (不) . 
若⑷足 为一致有界的，即存在 M, 使得 P{|X«| <M} = 1 对一切 i 成 
立 ■，且 (b)ESi^? = +~. 則对—切 A 



历史注记 


皮埃尔.西蒙_拉普拉斯侯爵 

皮埃尔西蒙.拉普拉斯侯爵就是我们熟悉的法国数学家拉普拉斯.中心极 
限定理是由拉普拉斯提出并证 明的. 他观察到测量误差（通常认为测量误差是由大 
置很小的偶然误差叠加而成的）具有正态分布.拉普拉斯也是著名的天文学家（他 
被称为法国的牛顿),他是早期概率论与统计的理论奠基者之一，同时积极推广概率 
论在日常生活中的应用.他坚信概率论对人类具有深远意义.他在一本名为《分析 
概率论》的书中说 :“我 们发现概率论其实就是将常识问题归结为计算.它使我们 
能够精确地评价凭某种直观感受到的、往往又不能解释淸楚的现象……值得注意 
的是，概率论这门起源于机会游戏的科学早就应该成为人类知识最重要的组成部 
分……生活中那些最重要的问题绝大部分恰恰是概率论问题•” 


中心极限定理的应用揭示了这样的亊实，测童误差近似地正态分布，这个统计 
规律是对科学的重大贡献，在17,18世纪，中心极限定理常被称为误差蘋率定律. 

FVancis Galton 在他1889年出版的书 < 自然遗产》中曾 说过: “我知道，几乎没 
有一种理论能够像误差频率定律那样神奇,那样貼切地体现宇宙次序.如果古希腊 
人知道这个规律的话，就一定会将它人格化或神化.它在混乱中保持着平静，情况 
越复杂、混乱，它的主导作用就越完蕃.它是最卓越的、不可思议的规律•” 


8.4 强大数律 

强大数律是概率论中最著名的结果，它说明，独立同分布随机变量序列，前 n 
个观察值的平均值以概率为1地收敛到分布的平均值. 





定理 4.1 (强大数律）设 X U X 2 , ■■- 为一独立同分布的随机变量序列，其 
公共期望值 M =五内】为有限，则下式以概率为1地成立 •• 



作为强大数律的一个应用，设有一独立重复试验序列，令 E 为某一亊件, P{E) 
为事件£:发生的概率，令 

fl M 第 i 次试竣中发生 



Xi + --- + X n 表示在前《次试验中，事件£；发生的次数， (4.1) 式说明亊件 E 在前 
n 次试验中发生的频率以概率为1地收敛到它的概率 P(Ej. 

虽然这一条定律可以不加任何条件地证明,但是在本证明中，我们假定 A 具 
有有限4阶矩，即假定 E[Xt) = K <oo. 



将上式右边期望号内的多项式展开,得到下列各项 之和： 

Xt XfXi XfX】 XtXiXk 和 XiXjXkXi 
由于 EXi = 0, 利用独立性得到 



在展式中，#的系数为1,故在 E[S*] 中可将所有X ?的期望合并成对 
固定的 （i,j), 负的展式中 XfXj —共有②= 6 项.因此，匁的展式中与 XfXj 
有关的那部分为其中求和号是对 {1,2,•••,!»} 的所有两元素组合而 



求的.因此，它的期望为 6QE[XfXj], 这样， 

五呦] =+ 6 ⑵ =nA ： + 3n(n- l)E[Xf)E[Xj] 

在第二个等式中，我们再一次利用了独立性.我们注意到 
0< Var(X?) = E[X*) - (E[Xf)) 2 

(E[Xf)) 2 < E[Xf] - K 
E[SX]^nK-¥^n(n-l)K 

嘲士 f 
嘲' ㈣ 卜 

即随机变量 E~ =1 S^/n* 的期望为有限,说明以概率为1地有 E~=i 对〆 < 00.( 若 


由此可得 
这样， 

从而 

由上式可知 
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法国数学家博雷尔最早在伯努利随机变量的特殊情况下证明了强大数律•而 
一般情况下的定理 4.1 的证明是由前苏联数学家 A. N. 科尔英戈罗夫给 出的. 


8.5 其他不等式 

有时候，我们需要求出概率 P{X-^>a) 的上界，其中 a 为一个正数，而均 
值 M 和方差^ = Var(X) 是己知的.由于当 a >0 时，彡 a 蕴含 

\X-n\>a, 利用切比雪夫不等式可知 

P{X-n^a}^ P{\X-n\ o>0 

然而，下面的命题措出，我们可以得到更好的上界（上界越小,就越好). 


命题 5.1 (单边的切比雪夫不等式）设X具有0均值和有限方差则对 
任意 a > 0， 


证明： 令6>0,注意到 


故 


X^a<?^X + b^a + b 


P{X >o} = P{X + 6>a + 6}<P{(X + 6) a ^(o + 6) 3 } 

上式中，由 X + 6》a + 6>0 可推知 {X + b) 2 >(a + b) 2 , 故不等式 成立. 再利用马 
尔可夫不等式 

P{X ^a}^, P{(X + b) 7 >(o + 6) 2 }^ E[(X + 6) a ]/(a + 6) 2 = (a 2 + ^/(a + 6) 2 
上式中 ，6 可以取任何常数，取 6 = o^/a, 便得到本命题的 结论. 实际上，当 =。” a 
时, （a 2 + ^/(a + ft) 2 达到极 小值. 口 

例 5a 设某工厂每周的产董是一个随机变量,其期望为 M = 100,方差为^ = 
400. 现在问这一周产量至少为120的概率的上界是什么？ 

解： 利用单边切比雪夫不等式 

P{X>120} = F{X-100>20}<^^ 65 = i 









Var(X) = ^ Var(Xi) + 2^^) ⑹ 

=二.晶二 ( ， 廣 《_0, 126 

由切比雪夫不等式 

P{X <30>< P {\ X - 50.25| > 20.25} < « 0.061 

由此看出，最多30对为一男一女的概率之上界为6.1%.但是，也可以利用单边的 
切比雪夫不等式 

P i X <30} = F{X<50.25 - 20.25K 似: 二聊 « 0.058 
这样,将上界稍作 改进. ■ 

当X的矩母函数已知时,我们可以得到更加有效的 P{X > a ) 的上界，令 
M ( t ) = E [ e tx ] 

为； f 的矩母函数.对于 t>0, 

P{X >a} = P { e tx 五 [e* x je-*° 利用马尔可夫不等式 

类似地,对于 t < 0, 

P{X <o} = P{e tx >e te }< E[e tx ]e- to 


这样，我们得到了切尔诺夫界. 


命颶 5.2( 切尔诺夫界） 

P{X >o}< e- te M(t) 对一 Sit > 0 
P{X <a}^ e _to M(t ) 对一切 f < 0 


由于切尔诺夫界对一切适用的 t 都成立,我们可以找到 * ,使 e~ to M(t) 达到最 
小值.例如，为找到 P{X > o} 的最小上界，可求 e- to M(t) 在 t > 0 上的最小值 • 
例 5c (标准正态分布的切尔诺夫界）设名是一个标准正态随机变童，它的矩 
母函数为 M(i) = e ^, P { Z > a ) 的切尔诺夫界为 

P{Z >o}< e^e 1 */ 2 对一切 t > 0 







之假设下' 令¥ = i/A ， 可得 

尸 x (令)‘ 

■ 

例 5e 设一个赌徒，每次赌博输和贏的概率是相等的,并且输贏与过去的历史 
是相互独立的,每次输和贏的数目是一个单位，设 X* 表示第 i 次賭博贏的单位数. 
则兄相互独立，且 

P{X i = l> = P{X < = -l} = i 

记表示经过 rx 次赌博后该赌徒的累计贏钱数，我们求 P{S n > a} 的 
切尔诺夫界，注意X的矩母函数为 

利用 e* 和 e _ * 的 McLaurin 展式，得 

e « + e-* = (l + t + ^ + | + .-) + (l-t + ^-| + -) 



= 2e 々 2 


Ele^l^e * 8 / 2 





利用独立随机变量和的矩母函数等于各随机变量矩母函数的乘积，我们得到 

£；[e ts -] = ( J B[e tx ])"<e nta / 2 
再利用关于切尔诺夫界的公式可得 

t >0 

通常为了求得更好的结果,我们需要求上式右边的极小值，或等价地， 

的极小值.利用二次式极小值的公式易知，当 t = a/r* 时， e-*«e»* a /2 
定 a > 0,此时 t = a/n 取正值,将这个值代入切尔诺夫的界中，得 

P{S n >oKe- tt */an a >0 

例如，由这个不等式,可得 

P{Sio > 6} < e -36 / 20 « 0.1653 

经计算,实际的概率值 

P{S l0 >6}= 巧在 10次路博中至少贏 8 次} 




-ili" 00547 





命题得证 • 



具有风险的投资方式. 

8.6 用泊松随机变置逼近独立的伯努利随机变量和的概率误差界 

本节中，我们要讨论用泊松随机变量逼近独立伯努利随机变量和的问题，其 c 
伯努利随机变量的均值为= 


开始时，先设为独立的泊松随机变量，其参数为 = 

现在我们指出，对每一个 <，由X可构造出伯努利随机变量其参数为内，并满 










由不 之定义可知,只依赖于 t/i 和X，而 ( XuUi ), -, ( Y n , Un ) 是相互独立的. 
因此， x 1 ,--,x n 也是相互独 立的. 这样,我们所构造的随机变童序列 X lr --,x n 
是相互独立的伯努利随机变童序列，其参数为 Pl ,..., Pn , 并且满足条件 

记义 = X it Y = 由上式可知 

现在设乂为任何实数之集合，则下列事件之 i _ 合恒等式成立 

{X € A} = {X 6 A,Y eA} + {X€ A,Y^A] 

{y € X} = {x € A,Y eA) + {Ye Ax^A} 

由上式可知 

P{X eA}- P{Y €A} = P{X € A,Y i A) - P{Y e A,X ^ A} 

进一步可得 

|P{A ： eA}- P{Y € A}\ < P{xe A,Y iA) + P{Y €A,XiA) 

又由于 {X€A,Y^A}^ {YeA,X^A} 互不相容，它们之中任一亊件发生，必 
有X # y 发生，故 

P{Xe A,Yi A) + P{Ye A,X 崔 A} < P{X # y} 彡 
综合起来,可知,对任何实数集合 A, 

|P{A-€A}-P{K€i4}|<^ 

利用泊松随机变量的性质可知， y = 也是 G 松随机变量，其参数为 a = 

，利用 y 的分布列可得 

卜{|;*“}-石宇卜 

注释当所有的于 p 时, xii e 是二项随机 i 氟上式变成 
小 结 

马尔可夫和切尔诺夫不等式是概率论中十分重要的不等式，可提供有关概率的 
上界.马尔可夫不等式所涉及的是非负随机变量，对于非负随机变童； f， 













































板限定理 


提 示：设 XuXu ,- - 为独立同分布的伯努利随机变量，其公共均 值为： r, 利用 




和理论习题4,也可证明队⑻一致地趋向于 /(*), 这就提供了分析中著名的聽尔斯特 
拉斯定理的概率证明，这个定理说明连续函数可用多项式一致逼近. 

⑷令X为离散随机变量，它的可能值为1,2,….若 P{X = *} 为非增序列， fc = 




的近 似值. 

参数为 （t,A) 的 r 随机变量，当 t 很大时近似于正态分布，解释这一结论. 
掷一枚均匀的硬币1000次.若前100次*是正面期上，你认为后面的900 t 
的比例是多少？ 

设； f 是一个泊松 tt 机变貴，其均值为 A. 指出对于 i < A, 


设 JV 为二项随机变量,其参败为 (n,p). 指出，对于 i > np, 

(a) e- M E[e tx ] 当 * 满足 《* = <(1 -p)/[(n-i)p] 时达到最小值（此处限定 t > 0). 
0) P{X ^n-tP^-pr-*- 
关于标准正态随机 变置的 切尔诺夫界为 

P{Z >a)<e -a * /a a>0 
指出，利用 Z 的密度函数的形式，可将上界压缩成 

P{Z > a} ^ |e—* /a a>0 

若随机变量 X 满足 E[X\ < 0,同时存在0 / 0,使得 E[e 9X ] = 1,指出这个0必 g 


在某特许经销商那里，每周汽车销售董是一个随机变*,其期望值为16,求下列亊件的 
概率的 上界： 

(a) 下周销售童超过18 辆； （b) 下周销售童超过25辆. 

假定自检习题1中汽车周销售量的方差为 9. 


给出下周销售量超过18 I 


















章概率论的其他课题 


9.1 泊松过程 







再令 /i -♦ 0，得 
或等价地 
将上式积分，得 
或 

再利用忾⑼= P{iV ⑼= 0} = 


一卿+ 竽 

I 

lnft(t) = -At + c 

=1,我们得到 
«)(<) = e- At . 


对于一个泊松过程，用: A 表示第一个事件的发生时间,对于 n > 1,记 r„ 为 
第 n- 1个事件点到第 n 个亊件点的时间间隔，序列{仏…二1，2 — }称为泊松 
过程的时间间隔序列.例如，= 5,巧=10表示泊松过程第一个亊件发生在时刻 
« = 5,第二个亊件发生在时刻 t = 15. 

现在我们要确定 r„ 的分布.首先我们指出，随机亊件⑺> t} 发生的充要条 
件是泊松过程在|0,幻内亊件发生的个败为0,因此 

P{Ti > t } = P { N ( t ) = 0} = e _At 
即7\具有指数分布,其均值为 1/A. 现在计算 

P { T 2 > t } = E [ P { T 2 > t \ T l }) 

但 

P { T 2 > t \ T ! =«} = P{(«,« +1] 上有0个亊件发生 |7\ = «} 

= P{(5,a + i] 上有0个事件发生 } = e_ At 

上式中第二个等式是由独立性所得,而第三个等式是由泊松过程的平稳性所得.由 
上式可以得到两个结论, r 2 也具有指数分布,其期望值为 i / a . 同时: r 2 与相互 
独立,重复上述推论过程可得命题 l.i. 


命题 1.1 速率为 a 的泊松过程的时间间隔序列为独立同分布序列，其公 
共分布为指数分布,公共期望为 i / a . I 


与泊松过程有关的另一个重要的量为，第 n 个事件发生的时刻，或者称第 
;个事件的到达时刻（等待时间)，这个名词来源于服务系统的顾客到达时刻（或系 



统的等待时间).易知， n 

5„ = ^Ti n>l 

因此，由命题 1.1 和第5 $6.1 节^ 具有 r 分布，其参数为（《夕).即知的 

概率密度为 

x>0 

现在我们可以证明 W ⑴是一个泊松随机变量,其均值为 M. 


定理 1.1 对于一个速率为 A 的泊松过程， 

P{JV(t) = n} = e "^ )W , n = 0,l,2,.. 


证明: 注意到第 n 个事件在 t 或 f 以前发生的充要条件是在 f 以前至少发生 
了 „ 个亊件，即 

N ( t )> n ^ S n ^t 

故 

P{N(t) = »} = P{iV(t) 彡 n} - P{N(t) > n +1} ■ P{S n < t} - P{S n+i < t] 
利用分部积分公式 fudv = tit; - Jvdu , 其中 ti = e-*-,di; = A[(A*)»- l /(»- l)!]d® 

由此可得定理之结论. □ 

9.2 马尔可夫链 

考虑随机变量序列 X 0 、 X U …，假定这些随机变量的可能取值的集合为 {0, 
I ,- -, M }. 通常可将 X„ 解释为系统在时刻 n 的状态.因此，当= i 时我 
们就说这个系统在时刻 n 处于状态 i. 随机变量序列称为马尔可夫链,如果某时刻 
处于状态 i, 且存在固定的概率使得下一时刻以概率处于状态 j. 即对所 

有 * 0 , • •' 

P{X n+ i = j\X n = », X„_ 1 = tn-1, ■ ,Xi=ii t Xo = io} = Pij 
值 Pij ,0 称为马尔可夫链的转移概率.它们满足（为什么？） 

J2 Pi i = 1 • ' M 


Pij^O 





天下雨的概率为 a , 若今天不下兩，则明天下雨的概率为 /?• 若用状态0表示下雨， 
状态1表示不下兩.这样，天气系统成为一个两个状态的马尔可夫链，其转移概率 


It ::;II 


即 Poo = a = l - fl ) i，fto = /3 = l - Pii . _ 

例 2 b — 嬙徒在 赌博的时候,每赌一局或者贏一个单位,贏的概率为 P ， 或输 
—个单位，输的概率为1 - P . 当赌徒的赌本为0或 M 时,则赌博停止.此时,赌徒 
的赌本是一个马尔可夫链,其转移概率为 

Pi,i+i = p = 1 - Pi,i-i < = 1, ••• ,Af-l 


Poo — Pmm = 1 

例 2 c P . 埃伦费斯特和 T . 埃伦费斯特是两位物理学家（又是夫妇)，他们提 
出了一个分子运动的理论 棋型. 设有两个坛子，里面共有 M 个分子，每一次随机地 
选择一个分子，把它从原来的坛子移向另一个坛子，记&表示第1个坛子经过《 
次转移以后的分子的个数.则 { X 0 , X lt - •} 是一个马尔可夫链，其转移概率为 
Pm + i = ^ 0<i^M 

0 < i < M 

Pii=0 若 | j - i|>l ■ 




对于马尔可夫链,表示由状态 i 转入 j 的概率，我们也可以定义两步转移 
的概率 p ^\ 它等于一个系统原来在状态 i ， 经过两步转移以后到达状态 j 的概率. 
即： 

4 2) = P{X m+3 =i|X m = <} 

PS ) 可以由经过下列方式计算得到 

= ^3= Jl 而 = *} = E p {^2=j,x l = fc|Xo = <} 
=E p w=jlx, = fc,X 0 = <}P{X, = k \ X 0 = i} = ^ P kj Pik 

一般情况下,可求出 n 步转移概率 P ^\ 

P ^ = P { X n+m = j \ X m = i } 

为计算 A ? 0 , 我们引入下列命题 • 

命鼴 2.1 (査普曼-科尔莫戈罗夫方程） 

P 卜 f ； 咖 广 0< r<n 


证明： 

pjf = P{x n = j \ X 0 = <} = 5 ； nx n = j ， x r = fc | Xo =<} 

= 5； P { Xn = j \ X r = k , X 0 = i } P { X r = k\Xo = <> = E ^ D 

例 M (随机游动）随机游动是一个可数无限状态空间中的马尔可夫链•假定 
状态空间是{0,±1, - }, 当质点处于状态 i 时，它下一步会以 P 的概率往右移一 
步，以 1- P 的概率往左一步.这样，质点的路径形成一个马尔可夫链，其转移概率 
为 

Pi,i+i = p = 1 - i = 0，± l ，... 

现在设一个质点处于状态 i , 若它经过《步转移以后到达状态 j , 那么，其中 （n - 
i + j)/2 步是往右的,而 n - (n - i + j)/2 = (n + i - j )/2 步是往 左的. 每一步往右 
的概率为 P , 并且独立于其他各步，它恰好是一个二项概率， 

尽=((„_，+力 /2 )，娜^ 

上式中二项系数0当 z 不是小于或等于 n 的非负整数时，定义为 0. 上述公式 







_9.2 马尔可夫链 383 

可以重新写成 

P^ + 2k = ( n 2 " fc )p B+fc (l- P)"- fc fc = 0 ,±l,--,±n 
Pi^2k + i = (n + tll) pn+k+l ^- p)n ~ k k = - ,±n,-(n + l) ■ 

虽然/ 是条件概率，但是我们可以利用初始概率,导出相应的无条件概率， 

例如 

P{Xn = j} = S P{X n = j\Xo = i}P{Xo = <} = ^4 n) P{Xo = <> 

对于很大一部分的马尔可夫链, G? 0 收敛到一个数〜’它不依赖于初始状态 i. 可 
以指出，具有这种性质的一个充分条 件是： 存在71， n > 0,使得 

> 0 对所有的 i，j = 0,l, -- ,M (2.1) 

满足公式 (2.1) 的马尔可夫链称为遍历的，由命题 2.1 可得 

上式中令《 — oo, 对于遑历的马尔可夫链,可得 

D (2-2) 

利用恒等式1 = Ejlo 切， 令 n - 00 ,可得 




(2.3) 


亊实上，可以证明是方程组 (2.2),(2.3) 的唯 一解. 所有这些结论，可 
综合成下面的一条定理,但是此处没有给出证明. 


定理 2.1 对于遍历的马尔可夫链， 


存在，并且％，0 < j < M 是下列方程组的唯 一解: 



例 2e 考虑例 2a, 我们假定如果今天下兩,则明天下雨的概率为卬如果今天 
不下雨，则明天下雨的概率为 /?• 由定理 2.1, 下雨和不下雨的极限概率 7T0 和町由 
下面的方程组给出 









俅奇、 不碡定性及蟎 


9.3 惊奇、不确定性及熵 

考虑在试验中事件£；发生以后的情况.当你知道一个事件£发生以后，一定 

会有某种惊奇的感觉，不过惊奇的程度可大可小.这种惊奇是由于事件 S 发生所 

带来的信息所引起的，而这些信息又与事件£；的概率有关.我们还是用例子来说 

明.设某人掷骰子，当人们听到两个骰子的总和是一个偶数时，并不感到十分惊奇 

(该事件的概率为 1/2). 但是当他梅出总和为12时，就感到惊奇了，原因是“和为 

12” 这个事件出现的概率为 1/36. 

本节中，我们要将惊奇量化，首先我们必须有这样一个共识，当知道某事件发 

生以后，感到惊奇的程度只跟这个事件的概率有关.我们用表示由概率为 P 

的事件发生以后所产生的惊奇感觉的程度.为了确定 S ( p ) 的具体形式，我们需要 

给出 S ( p ) 应该满足的条件，根据这些条件确定 S ( p ) 的形式.首先我们假定 S ( p ) 

对一切0 < p < 1有定义,但对于概率为0的亊件没有定义. 

关于惊奇的第一个条 件是： 当听到一个必然事件发生时不会产生任何惊奇.因 
此 


公理 i 利 i ) = o . 


第二个条件是越不容易发生的事件发生后，造成的惊奇感觉就越大. 

| 公理2 S ⑼是 p 的严格递减函数，若 p < g ，则 S ( p ) > S ⑷. 

第三个条件是数学上的条件, p 的微小变动也会导致 S ( p ) 的微小变动. 


公理3 是一个 p 的连续函数. 


现在考虑两个独立事件圹假定 P ( E )= p , P ( F ) = q , P ( EF )= pq . 因此，当 

听到 E,F 发生时，相应的惊奇为 S ( pq ). 现在假定首先发生，然后 F 发生.而 

S ( p ) 表示 听到五 发生后的惊奇，由此可知 S ( pq )- S ( p ) 表示听到 F 发生以后的附 

加的惊奇.由于相互独立， E 的发生并不影响尸的概率，因此,这部分附加的 
惊奇应该是5( 9 ).这样，我们有 


公理4 S ( pq ) = S { p ) + S ( q ) 0< p < l ，0 < 9 <l 


现在我们要给出 5( p ) 的表达式. 















S ( p ra ) = m 5( p ) (3.1) 

同时,对任何正整数 n , 5( p ) = 5( pi - - pi ) = n 5( pi ), 由此推得 

5( p *) = ^5( p ) (3.2) 

由式 (3.1), (3.2) 知 

S { p m/n ) = mS ( pi ) = ^ S ( p ). 

或者 

5( p *) = xS ( p ) (3.3) 

其中 a : 为正有理数，但由于 S 为 p 的连续函数（公理 3), (3.3) 式对于非负实数都 
成立.（证明此结论!) . 

现在，对任意 J )，(0 < p < 1), 令 * = - log 2 p , 成 p = (1/2)* ，由 （3.3) 式得 
5( P ) = S ((|)*) = *5( i ) = - Clog a p 

其中 C = 5( i )>5( l ) = 0. ° 

当 C = 1 时, S ( p ) = - log a ( p ), 其单位为比特 ( S ⑷). 

现在考虑一个随机变量，它的可能取值为 XL -.-. In , 相应概率为 PU - , Pn . 
当观察到私以后，引起的惊奇为 - log 2 ( pi )， 由此可知，当观察到随机变量 X 所引 
起的平均的惊奇为 „ 

H ( X ) = -^2 pilog 2Pi 

在信息论中 H ( X ) 称为随机变量 X 的期（当 p * = 0时, 01 og 2 ⑼= 0). 可以证明， 
当 Pi 相同时, H { X ) 达到其最大值 • 

H ( X ) 表示得知 X 值以后所引起的平均惊奇程度,但也可以认为 X 的不确定 
程度，事实上,在信息理论中， H ( X ) 就是观测到 A ： 的值以后所接收的平均信息量， 
因此，惊奇程度,不确定性和信息置是从不同角度来 看待义的同— 个特性 • 

现在考进两个随机变量 A •和 y ,它们分别取值于 A ，… ，: r „ 和扔，…，!/„， 
其联合分布列为 





其中 


P(x i \y j ) = P{X = x i \Y = y i } 


因此，当 y 被观测到以后， X 的平均不确定性为 

H Y { X ) = Y t HY = y i ( X ) p Y [ y i ) 

其中 PY ^ Vi ) = P{Y = Vi ). 

命题 3 .1 说明了 与 H ( Y ), Hy ( X ) 之间的关系 . 的不确定性等 

于 y 的不确定性加上 y 被观测到以后的平均_余不确定性. 

I 命題 3.1 

I _ H ( X , Y ) = H ( Y ) + Hy { X ). _ 

证明：利用恒等式 p ( xi , yj ) = py ( yj ) p (® i | i />), 

H ( X , Y ) = - 乙5>(叫，抝 ) log 2 p (： c “ W ) 

* i 

=~ SE * > y ^) p ( x < lw ) P 0 82Py ( yi ) + iog 3 p (*< l » i )] 

=- ^ PY {. Vj ) log a pr ( vj ) J ^ p ( x <| yi ) 
i i 

- Y ^ PriVi ) Ep (灼 Iw ) lofop (叫 Iw ) 

= H ( Y ) + Hy ( X ) 

当 y 被观测到以后 , X 的不确定性应该减少，这是信息论的一个基本结果.为 





证明： 


Hy(X) - H(X) = - 52 loftilP ( 灼 l»i)lP(yi) + SE p ^ Zi,y J^ log 2 p (®*) 

<log 2 e ^1)(3： 4 ， ％ ) [ p^=) - 1 ] 利用引理 3.1 
= log 2 e 

= log 2 e[l-l] = 0 


9.4 编码定理及熵 

设一离散随机变量X在 A 地被观测到，然后通过一个通讯网络送到 B 处，而 
通讯网络信号由0和1组成.为了实现通讯的目的，我们必须把久的可能值编成 
一个一个的0 - 1 序列. 为了避免混乱,要求编码后的序列，不能出现一个序列是 
另一个序列的延长 • 

例如，X可取 zi,x a ,* 3 ,*4 ,則—个可能的编码方式是 

XI *-» 00 X2 «-+ 01 *3 <-► 10 X4 «-» 11 (4.1) 

若X = H ，则将00送到 B 处，若X =勿，则将01送到 B 处，等等.这就形成一 
个编码系统.另一种可能的编码方式是 

X! <-»0 *2-» 10 *3 110 XA ^ 111 (4.2) 

但是下面的编码是不容 许的： 

z t «-» 0 ®2 » 1 *3 — 00 *4 *-* 01 

这是因为00是0的延长, 01也是0的延长 • 

编码理论中的一个任务是设计一个编码系统，使得在传送过程中具有最小的期 
望码长.例如，若 

P{X = *1} = ^ P{X = x 2 } = \ P{X = *3} = § P{X = « 4 } = g 
若利用 （ 4 . 2 ) 传递,则平均码长为 [1 + 1 . 2+|. 3 + |.3 = 1 . 75 ,若用 （ 4 . 1 ) 传递, 
则平均码长为2,因此，对于上面一组概率,（ 4 . 2 )比（ 4 .1)更有效 • 

现在提出这样的问题，对于给定的随机变量，什么样的编码系统是最有效？其 
结果是这样的，对于任何编码系统，其平均码长大于或等于叉的熵，这个结果就是 




9.4 编爲定 a 及嫡 


信息论中的无噪声编码定理，为证明此结果,我们需要下面的引理 4.1. 


引理 4.1® 设久的取值范围为为了把它们编成长度为 m ,..., 
n N 的二进序列（不能让其中一个序列为另一个序列的延长)，充要条件为 



证明： 对于正整数 rn ，…， n w ， 记％表示 rij 中等于:?_的个数 ， j = 1,2,.". 
为了使得它们形成编码系统，显然,< 2,又由于不容许一个码为另一个码的延 
长对于奶，必须满足奶 < 2 2 - 2 w u 其中2 2 是码长为2的所有二进序列个数，而 
2 Wl 就是将长度为1的序列延长成2位序列的个数.一般情况下据相同的理由， 
应满足 

ti ； n <2 n - ti ； i 2 n - 1 - W 22 n - 3 - Wn - i 2 n = l ,2, ••- (4.3) 

亊实上,仔细一想,若有一组 n<，i = 1,2,…，满足上述条件,就可能找到相应的 
二进序列将而进行编码，并且而相应的码长为叫，因此, （4.3) 是将: T 1, …，心编 
成码长为 n lt --, n N 的编码系统的充要条件. 

将 (4.3) 改写成 

ton + w n - i 2 + • • • + «> i 2 n_1 < 2 B n = l ,2, - - 
两边除以 2' 充要条件变成 

pw t Qy < 1 对一切 ri 成立 （4.4) 


由于 n 为任意的，容易看出，这个充要条件变成 

由于％是 


㈣ )％ 
,中等于:/的个数,于是 


现在给出定理 4.1 


p ( Xl ) ，■- , p ( x N ). 设有一个编码系统，将 a 


,位的二进序列，则 


Y^rnpixi) > H(X) = -gp(®i)log2 咖） 


①在本章末，坏者给出该引理的另一种 证明. ——編者注 







证 明：记 Pi = p ( Xi ), ft=2-»*/Df =1 2-»>,i=1, • • • , AT. 关于这两组数，我们有 
-gPilog a (^) = -log 2 egP i ln(^)=log 2 egP i ln(^) 
^log^^Pi^-l ) 利用引理 3 .1 
=0 由于= y^g. =1 

由此可得 

-^P 4 log,Pi < -S P * lo 82* = E^ + 1 °ga (E 2_n< ) 

利用引理 4.1 □ 


这个不等式即定理之结论. 

例 4a 考虑随机变量 A •，其分布列为 

P(*0 = ^ P(*a) = ^ P(*s) = p(*4) = I 

由于 

H(X) = -[ilog 2 | + Jlog2i + Jlog4] = 5 + 5 + 1 = 1-75 

现在考虑编码 

*1 «-♦ 0 *2 <-» 10 x 3 «-► 110 *4 <-» 111 (4.5) 


对于这组编码，平均码长为 En,«iP(*i) = l-75 = H ( X ). 由定理 4.1 知，不会再有 
比这一组编码更有效的编码了. ■ 

对于大部分随机变量来说，不会存在一组编码系统，使得平均码长达到下界 
H ( X ). 但是可以存在一个编码系统，使得平均码长与 H { X ) 之间的误差小于1.为 
此 ，记叫 为满足下列条件的整数 


- log 2 P(*<) < ni <- log 2 p(*<) +1 


負 2_ 、 ^2^*^**)= f^piXi) = 1 

利用引理 4.1, 我们能够构造一组编码 （ 0-1 序列)，使得其长度为 〜(纟 =1 ， … ， AT), 
rw 对应于叫.此时,这组编码的平均长度为 L = ZZi «<〆*<) •显然 i 满足 


-^p(* i )log 2 p(x i )<L< 








H ( X ) <L< H ( X ) + 1 


例 4b 现独立抛掷 10 次硬币，每次正面朝上的概率为 p, 现在要把这个信息 
由 A 端送 B 端. 试验的结果为尤= (Ua,." ,JT 10 ), 其中 
X.J 1 第綱正翻上 
[0 第*次抛掷反面朝上 

根据刚才得到的结果,必定存在至少一个编码系统,具平均码长 L 满足 
H ( X ) H [ X ) + 1. 

由于不为相互独立的随机变量,依命题 3.1 和定理3.2,得 

H ( X )^ H ( X x , ■■■, X n ) = = -10[plo&p+(l -p)log a (l-p)] 

设 p = 1/2, 则 H ( X ) = 10, 此时,利用 A" = z 作为编码系统，其平均码长为 
10. 因此，不会存在比 X = x 本身这个编码系统更有效的编码系统.例如，前5次 
掷硬币，得到正面朝上，后5次反面朗上,可将1111100000直接进行传送 • 

然而，当 P / 1/2,我们可以找到一组编码,使得平均码长比10 小. 例如 p = 1/4, 

此时 

H ( X ) = -10( J log 2 i + 5log a |)=8.11 
我们可以找到一组编码,其平均码长小于 9.11. 

一个简单做法如下，将 {Xu - - , X l0 ) 分成5对，2个随机变量形成一对，编码 
方法 如下： 

Xi = T , X i + i=T ^ 0 X i = T ， X i+l =H ㈠ 10 

Xi = H,X i+1 =T « 110 X < = H,X 1+1 = H ^ 111 

此处, i = 1,3,5,7,9, H 表示正面朝上， T 表示反面朝上_这样可把10次掷硬币结 
果通过一对一对的编码将信号传送出去. 

例如,试验结果为 TTTHHTTTTH, 此时编码为010110010,其平均码长为 

5[i(!) a + 咕 )(!Mi)(!)+ 喵 ■ 

到此为止，我们讨论的传送都是无嗓声传送，在 A 端送出一个信号,在 B 端接 
收到的是与 A 端完全相同的 信号. 由于随机干扰，在实际通讯中，往往产生误差， 
例如发送端发送的消息为00101101,而接收收端变成 01101101. 

现在设在发送端发出一位 (0 或 1), 在接收端将以概率 P 收到正确的信号，并且 
各位之间的传送是相互独立的,这样的通讯系统称为二进对称通道.现在设通道的 
参数 p = 0.8, 并假设传送的信号由很多位组成.由于每位有 0.2 的概率误传，若不 






















j = 0,l,2, ••- ,M 


如果这个马尔可夫链是遍历的，证明屯== 0,1,…， Af• 

某人的精神可能处于3种状态，兴奋⑷,平静⑷，郁闳 （g), 下面是糟神状态的转移概率 
矩阵： 



这个矩阵是这样解释 的：以 s 行为例，这一行表示若今天他比较平静，那么他明天处于兴 
奋、平静和郁闷的概率分别为 0.4,0.3,0.3. 其余各行的解释是类 似的. 求这个人处于兴奋 
天数所占的比例. 

假定明天是否下雨只依赖于过去两天的气候状况，特别地，若昨天和今天都下雨，那么明 
天下兩 的概率 * 0.8; 若昨天下雨,今天不下雨，則明天下雨的概率为 0.3; 如果昨天不下 
雨，今天下 M, 则明天下兩的槪率为 0.4; 如果昨天和今天都不下雨，则明天下雨的概率为 
0.2. 求下雨天的比例. 


10. 一个人每天出去跑步，他出去的时候可从前门出去，也可从后门出去，前门出或后门出是 
等可能的.他回家的时候也是等可能地从前门或后门 回来. 他一共有5双运动鞋,放在两 



(b) 对于给定的分子,求出它在第一个食子里的（极限）概率 • 

(c) 当时间很长以后，事件“第： j 个分子落在第一个盒子中 ' j > 1,是否独立？ 

(d) 解释为什么 （b) 中极限概率是这样的. 


12. 设某人梅两枚均匀骰子，并计算所得点数之和，求这个和数的熵. 

















x= fl 若其点数之和等于 6 
= lo, 其他 


令 y 为第一次掷殽子所得到的点数，计算⑷ H(Y), (b) Hy (X), (c) H(X,Y). 

15. —枚硬币，抛拥时正面朝上的概率为 p -2/3, 现连续抛掷6次,计算试验结果的熵 • 

16. —个随机变量可取 ri 个值 h ，… ，: c „, 相应的概率值为= 1,2, •••,«. 我们希望 
问一系列问«,毎次只回答“是”或“否”，例如“是否龙=*丨？”或“是否 X 取： Ei ,: r 2 或 
x 3 之一个？” ,等等，为了得到 A " 的值,你对平均问问應的次败有什么结论？ 

17. 对任何离散随机变童； f 和函数/,推出 H{f{X)) < H(X). 

18. 设 X 是在 A 端发送的0 - 1倌号, y 为 B 端接收的倌号, H{X)- Hy (X) 称为传输率.作 
为 P{X = 1} = 1-P{X = 0) 的函败，当传输率达到最大时，这个值称为传输通道的容量 • 
现设通道是一个二进对称通道，即通道满足 P{Y = l\x = 1} = P{Y = 0\X = 0} = p . 
证明，当 P{X = 1} = 1/2 时,传输率达到最大值 1 + plog a p +( l - p ) log a (l - p ) (这个 





















为码长为 1 的码的延长,这些长度为2的 0 - 1序列就不能作为 码了. 因此, t^<2 a - Wl x2, 
即 (4.3) 对 n = 2成立.如此继续下去，可得 (4.3) 对 一« n 成立. 

将 （4.3) 改写成 

t»n+t»«-i2 + ••• + wi2 B_, <2" »=1,2,-- 

两边除以 2", (4.3) 就变成 

矣叼 (!/ < 1 对-切《赃 （4.4) 

由于 n 为任意的，容易看出，这个条件变成 

由于叫是 ni, …， njv 中等于 j 的个败 

S (矿 

现在设X的取值范围为若把它編成码长为 «„•••, 的编码系统，即 
{*>,••• , x N ) 与编码系统中的码建立了 一一 对应关系.根据刚才的讨论知，关系式 



必定成立.这就是引理的必要性. 

现在证明充分性.设 { ni , -- , n N ) 为一个正整数序列，满足条件 



我们指出必定存在一个大小为 N 的编码系统，使得相应的码长之集合为 { m , …， rw } •我们 
还采用必要性证明中的记号斯,< 多 1. 这样,充分性条件中的不等式变成 

| 善 L 

由上式可推知奶 < 2,可取奶个长度为1 的码. 在不等式中取2项，可得 <2 a -2 u » i , 
这说明在长度为2的0 - 1序列中，最多有 2 a - 2 «；i ^ 0 - 1序列，这些长度为 2 的0 - 1 
序列和原来的长度为1的码放在 - 起形成一个編码系统 • 由于在 2 s - 2 W1 , 显然可以选择 
W 2 个长度为2的0 - 1序列使得一共奶+ 个0 - 1序列成为一个大小为奶+奶的编 
码系统.依次类推，可以选出奶+奶+奶+…个0 - 1序列，形成一个编码系统.将这些码 
的长度列出来就是集合 { nx . na , -- ， n N }. 有了这个编码系统,就可以建立{幻,… ，: Tiv } 与编 
码系统的一一对应关系而完成编码任务. 口 





第 10 章模 拟 

10.1 引 言 


怎样确定单人纸牌游戏的胜出概率？所谓单人纸牌游戏就是用某种固定的方 
法玩52张牌,一副牌的顺序确定以后,玩牌人的胜负就完全确定.一种合理的假设 
是一副牌的 （52)! 种可能的顺序是等可能的，然后数一数有多少种顺序会胜出，最 
后计算胜出的 概率. 然而这种方法显然不现实，因为 (52)! 种顺序是相当大的数量. 
而且即使一副牌的順序己知，也只有按规则玩牌以后才能知道玩牌人是否胜出. 

看起来，确定一副纸牌的胜出的概率是数学的难题.然而，在应用科学中，试验 
是非常有价值的技术，对于单人纸牌游戏，试验就是玩一次牌，或者可以编制一个 
计算计程序,让机器去玩牌.经过几次玩牌以后，比如 n 次，令 
[ 麵胜出 
I其他 

此时不, i = 1，2,…， n 是独立的伯努利随机变量， 

E ㈨] = P{»i 次玩牌胜出 } 

由强大数定律 

^Xj 贏的次数 

玩牌总次数 

以概率为1地收敛到单人纸牌游戏中玩家贏}.玩大量次数的纸牌游戏以后， 























x= -f2\ hiU * = -\ ]n (f[ u ^ 


具有 r(n，A) 分布. ■ 

10.2.2 舍取法 

假定我们有办法棋拟一个随机变量，其密度函数为 s， 我们可以以这个随机变 
量为基础，模拟一个密度为/的随机变童.其方 法是； 先棋拟一个随机变童广 y 
的分布密度为 S, 然后以正比于 f ( Y )/ g ( Y ) 的概率采用 Y 的值.具体说来，令 c 为 
-常数，满足 


然后采用下列步骤产生具有密度/的随机变量 • 

第1步模拟 r, 使 y 具有密度丨同时产生一随机数 £/• 
第2步若 U < f ( Y )/[ cg ( X )], »IJ X = Y , 否则回到第一步. 
舍取法模拟流程见图 10.1. 







证 明：设 X 为由舍取法产生的随机变置，记况为舍取法中循环的次数，则 
P{X^x} = P{Y N ^x} = p{Y^x\UK^} 

P 〜， U < 徵 

= K ~ 

其中尺= p{u<： nY)/[cg(Y)]}. 由于 y 与 t/ 相互独立, y 与 C/ 的联合密度 
由下式 给出： 

f ( y , v )= g ( y ) 0<«<i 

这样， 

P{X < *} = ^： JJ 9(v)dudy 

= j(f jf /( " )/c#(v) dtlfl ( y ) dy=-^J ^/(y)dj/ (2.2) 



P{X<*} = J X f(y)dy 


注释⑷前面提到以概率 f(X)/[cg{Y)] Y 是措产生一个随机数 17, 若 
以</(10/[印(7)1，则令尤=1^ 

(b) 在产生随机数的过程中，接收 y 的概率为< f(X)/[cg(y))} = K = 
1/c. 由此可知，循环次数 iV 的分布是以 c 为期望的几何 分布. _ 

例 2c (棋拟一个正态随机 变童） 

设名 是一个标准正态随机变量（期望为0,方差为 1). &MX = \Z \ 具有密度 



_10.2 具有连缕分布*教的随机吏量的棋枳技术 403 

函数 

/(*) = ^e - *" 72 0<i<oo (2.3) 

开始时,我们先用舍取法，模拟 A". 取一个密度函数贞*) 
g{x) = e -x 0 < x < oo 

注意到 

取由 （2.4) 式知 

^=«p{^i2!} 

现在，我们可以用舍取法棋拟 A •: 

(a) 产生独立随机变量 y 和I/,其中 y 具有期望为1的指数分布,I；为 (0,1) 
上均匀分布. 

(b) 若卩 < exp{-(r- l) a /2} ，則 X =八否则转向 （a). 

当久 得到以后[X具有密度 (2.3)], 可令 Z = +X 或-尤，以1/2的概率取正 
号，1/2的概率取负号. 

在步驟 （b) 中，条件卩< exp{-(K-l) a /2} 等价于 -]nU>(Y- l) a /2 , 但是 
在例 2a 中指出， -InC； 是指数随机变量,期望为1，因此，步骤 （a)，(b) 等 价于： 

(a') 产生两个相互独立的，期望为1的指数随机变童 h 和 n. 

(V)若妁 > ⑺一 1) 2 /2,令X = Yi， 否则转向 （a/). 






















互独立 ，炉为 (0,1) 均匀随 机变氣 e 为 (0,2n) 上均匀随机变量（见习题 13) .由于 



由（2_5)式知，标准正态随机变量 X ,可从下式得到， 

X = (-21 n U) l/2 Vi/R y = (-21 n U) l/2 V 2 /R 
亊实上，由于（在疗+埒< 1的条件下)护为 （0,1) 均匀随机变童,与0独立，这 
样，犮 2 可代替而不必重新产生新的随机数. 

X = (-21nW/ 2 | = ^^V I Y = {-2^)^ = y[^-V, 

为相互独立的标准正态随机变量，其中 

5 = A 3 = Vi 2 + V 2 a 

综合起来，利用下列方法可以产生一对独立的标准正态随机变量. 

第 1 步产生随机数 u lt u 2 ； 

第 2 步令 Vi = 2叭- 1,V 2 = 2U 2 -l,5 = vf + ^; 

第3步若 S >1, 转向第1 步； 

第4步得到独立的标准正态随机变量 

上面的方法称为极坐标法，由于在正方形中随机点落入单位圆内的概率为 <4 
(圆面积与正方形面积之比)，平均来说要经过 4 /ji « 1.273 次循环产生2个相互独 













10.3 模拟离散分布 


模拟具有连续分布函数的随机变量所使用的方法，都可适用于离散随机变量的 
模拟.例如，我们希望模拟具有下列分布列的随机变童 X : 

p{x=x j }=p J i = 0,1,. 2^ = 1 

可利用下面的方法,它是反变换方法的离散版本. 

设 C / 为随机数，令 

*1 若 

x a 若巧<以<朽+巧 
巧若 

p{x = * i } = p|| ； P i <£/<gP < J=P i 

我们可以看出，所产生的随机变量久具有离散分布列 {PjJ = 1,2,… 

例 3 a (几何分布）设有一独立重复试每次成功的概率为 p ,0 < p < 1，试 
验一直到出现成功为止，记 X 为试验的次数，则 

P{X = <} = ( l - p) < - 1 p <^1 

X = i 表示前 i -1 次试缠的均为失败，而第 i 次成功.随机变量 X 的分布是参数 
为 P 的几何分布.由于 

= i } = l - i »{ X > j -1} 

=i - pm - 1次试验均为失败}=1 -(l - py - 1 j >\ 

这样, X 可以由下列方式产 生：取 t / 为随机数[即 （0,1) 上均匀随机变量,下同]， 
当 

1 - (1 -分- 1 < 汉彡 1 - (1 -分 

时, X 取为么 ±5 t 与 

( i - P y ^ i - u <( i - P y - 1 

是等价的,又由于以与1 - c / 具有相同的分布，因此，义具有下面的表达式 




x = min{j : (1 -pV <U} = min{j : j ln(l - p) < In J7} = min {j : j > 

上式中有一个不等号反向的过程，其原因是， ln(l-p)<lnl = 0, 用这个数去除不等 
号的两边时，不等号应 反向. 利用记号 [x](W 为不超过: r 的最大整数)， A" 可以写 

X = 1+ t ^ ■ 

和连续情形类似,对于某些离散分布，也开发出某些棋拟方法.现举出其中2 
个方法. 

例 3b (棋拟一个二项随机变童）二项随机变量[参数为 (n,p)] 可以表示 n 个 
独立的伯努利随机变量之和，利用这一点，很容易进行模拟，设 . 为一组 
随机数，令 



易知 X s E'UxXi 是二项随机变量，其参数为 (n,p). ■ 

例 3c (模拟一个泊松随机变量）设叭,£/ 2 , • 为—串随机数,记尺= min{n ： 
nr=i Ui < e- A }, 我们将指出随机变童 X = N-l 具有泊松分布，其期望为 A •注 
意妯 n 

X +1 = min {n ： JJ t/< < e _A } 

<■1 

与 „ o 

X = max{n：JI^^e- A } 其中口 认51 

是等价的.上式经过化简得 

X = max|n : > —a| = max|n : lnt/i < a| 

注意到- In 认具有指数分其期望值为 1. 现在考虑一个泊松过程,其速率为1, 
易知，这个过程在 (0, A ) 上亊件的个数的分布为泊松分布，其期望为 A , 而 (0. A ) ± 
每两个相邻事件之间的时间间隔刚好为参数为1的指数分布，而且这些时间间隔 
又相互独立.现在再看一看 X 的表达式,其分布刚好与泊松过程在 （0， Aj 上亊件的 
个数的分布相同.因此， X 的分布为泊松分布,其期望为 A . 随 

10.4 方差缩减技术 


设；^，…， X „ 具有一已知的联合分布,现在我们希望计算 








ji /4 的估计是原来的估 


数，利用 y/l^m 的平均值作为 Jt/4 的估计,具有更髙的精度（习题14指出，利用 
产生的估计与利用 v/r^2 产生的估计具有相同的精度). 

由于 s(ti) = vT^?,0 是一个单调 递减函 数， 我们可以利用 对偶变量 
法,进一步减少估计的误差,我们可用 n/2 个 (v/r^+ y/r-(l-U)^)/2 的平均 
值来估计 ji /4 ，下面的表列出了 n = 10 000时， ji 的估计值. 


方 法 

入单位•内醃机点的比 


+ y / l -( l - 沪 )） 的平均值 



利用最后一个方法,当 n = 64 000时，31的估值为 3.143 288. 


10.4.3 控制变置 

假设我们希望棋拟 E\g(X)) ，其中X = ,X n ). 但是我们已知某 f(X) 

的期望,例如 E[f(X)] = n, 我们可利用 

W = g(X) + a[f(X)-^) 


来棋拟 E\g{X)] , iS. 

Var(W) = Var[«7(X)]+a 2 Var[/(X)] + 2aCov[g(X) y f{X)] 
在上式中令 , yv. 


(4.2) 


Var(W) = Vfa\g(X)] - 


Cov [ f { X ), g ( X )) 2 .. 

Var[/(X)]~ (4,3) 

但是通常, Var[/(jr)] 和 Cov[/(JT), fl (X)] 是未知的，因此,我们得不到所冊的 
方差缩减.实践中，我们可以利用模拟数据去估计这个值.理论上我们可以利用这 
个方法对所有的模拟结果缩减相应的方差. 


小 结 

设 F 是一个连续的分布函数， [/是 (0, 1) 上的均匀分布的随机变1：(称为随机 
数）则 F-HU) 具有分布 F, 其中 F-\u) 是方程 F(:r) = “的解，这种由随机数构 
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11. 利用舍取法， s(aO = l，0<*<l 
/(*) = 


-x) 2 0<*<1 

其他 


12. 怎样利用随机数去退近 J。 1 ,其中 Jk(:c) 是任一函数？ 

提 示：若 U 是随机数, E[fc(J7)] 是什么？ 

13. 设 ( X , Y ) 为以 (0,0) 为國心，半径为1的圆上均匀分布，它的密度为 

/(*.»)= ^ 0<* a + » a <l 

记 H +»^ 1/2 和= arctanOVX) 表示它的极坐标.指出 H 与0相互独立， 

为 (0,1) 上均匀随机变量, 0为 （0,2 ji ) 上均匀随机变量. 

14. 在例 4a 中，我们己指出 

E[(l-V a ) 1/a l=S[(l-^) 1/a ] = 5 ' 

其中V在 (-1,1) 上均匀分布,而1/在 （0,1) 上均匀分布,指出 
Var[(l - V a ) l/a ] = Var[(l - V a ) 1/a ] 

15. (a) Ife 证：当 a 由（ 4 _ 2 )给出时，（ 4 .1)达到极小值 • 

(b) 驗证 (4.1) 的极小值由 (4.3) 给出 • 

16 •设叉 取值于 （0, 1)，其密度为 /(*)• 指出槙拟 g ( X )/ f ( X ) 可以估计 fl(*)dx. 这个方 
法称 为重】 


为重要样本法，其要点是选择/与 9 相似,使得 g ( X )/ f ( X ) 具有较小的方 S. 


自检习题 

1. 设； f 具有槪率密度 

/(*) = Ce x 0<*<1 
(a) 找出常数 C; (b) 指出棋拟X的方法. 

2. 找出一个棋拟随机变量的方法，该随机变量具有密度 

/(*) = 30(x a -2* a +* 4 ) 0<*<1 

3. 找出一个棋拟离 敗随 机变量的有效算法，其分布列为 

pi = 0.15 pa =0.2 pa = 0.35 p* = 0.30 

4. 设； f 是一个正态随机变量，其期望为方差为 <r a . 定义一随机变量 y, 使它与 x 具 
有相同的分布,但是负相关 • 

5. 设 x,y 具有独立指数随机变量，其期望为 1. 

(a) 利用棋拟方法找出估计 E[e xy ] 的方法 • 

(b) 利用一个控制变量将 （a) 中得到的估计改进 • 

参考文献 

Ross, S. M. SimulaHon . 4th ed. San Diego, Calif.: Academic Press, Inc., 

2006.® 

①本书中文版和英文影印版均己由人民邮电出版社出版.——编者注 





徳摩根定律 , 24 

点数问厘, 75, _ 
独立，43, 233, 


赌博持续时间，‘ 

赌徒破产问题， 
对立事件，44, 
对数正态随机变邐 











